Minding's Programming/Crawling
[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기
Minding
2024. 6. 26. 17:37
728x90
반응형
네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.
이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.
그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.
from bleach import clean
article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))
>>>
'가나다라'
728x90