[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기

728x90

네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.

이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.

그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.

from bleach import clean

article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))

>>>
'가나다라'

728x90

[Playwright/Python] 비동기 처리가 가능한 웹 스크래핑 라이브러리, Playwright (0)	2024.10.23
[BeautifulSoup/Selenium] BeautifulSoup, Selenium 기본 정리 (6)	2024.10.02
[HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리 (1)	2024.10.02
[Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기 (0)	2024.07.09
[Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기 (0)	2024.07.01

티스토리툴바