본문 바로가기
Minding's Programming/Crawling

[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기

by Minding 2024. 6. 26.
728x90
반응형

네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.

 

이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.

 

그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.

 

from bleach import clean

article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))

>>>
'가나다라'
728x90
반응형

댓글