728x90
반응형
네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.
이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.
그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.
from bleach import clean
article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))
>>>
'가나다라'
728x90
'Minding's Programming > Crawling' 카테고리의 다른 글
[Playwright/Python] 비동기 처리가 가능한 웹 스크래핑 라이브러리, Playwright (0) | 2024.10.23 |
---|---|
[BeautifulSoup/Selenium] BeautifulSoup, Selenium 기본 정리 (6) | 2024.10.02 |
[HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리 (1) | 2024.10.02 |
[Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기 (0) | 2024.07.09 |
[Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기 (0) | 2024.07.01 |