본문 바로가기

Minding's Programming/Crawling

[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기

728x90
반응형

네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.

 

이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.

 

그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.

 

from bleach import clean

article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))

>>>
'가나다라'
728x90