[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기

2024. 6. 26. 17:37·Minding's Programming/Crawling
728x90
반응형

네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다.

 

이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다.

 

그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다.

 

from bleach import clean

article = '<b>가나다라</b><script></script>'
print(clean(article, tags=[], strip=True))

>>>
'가나다라'
728x90

'Minding's Programming > Crawling' 카테고리의 다른 글

[Playwright/Python] 비동기 처리가 가능한 웹 스크래핑 라이브러리, Playwright  (0) 2024.10.23
[BeautifulSoup/Selenium] BeautifulSoup, Selenium 기본 정리  (6) 2024.10.02
[HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리  (1) 2024.10.02
[Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기  (0) 2024.07.09
[Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기  (0) 2024.07.01
'Minding's Programming/Crawling' 카테고리의 다른 글
  • [BeautifulSoup/Selenium] BeautifulSoup, Selenium 기본 정리
  • [HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리
  • [Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기
  • [Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기
Minding
Minding
  • Minding
    Today's Minding
    Minding
  • 전체
    오늘
    어제
    • 울고넘는 딥러닝 (278)
      • Minding's Baseball (57)
        • MLB Statcast (29)
        • 머신러닝으로 홈런왕 예측하기 (3)
        • 야구칼럼 (12)
        • 야구 규칙, 용어 (1)
        • 2022-23 질롱 코리아 (8)
        • 류현진 등판경기 (4)
      • Minding's Programming (185)
        • 프로그래머스 코딩테스트 (21)
        • Knowledge (44)
        • Numpy & Pandas (6)
        • Excel (3)
        • Git (1)
        • Pygame (11)
        • CV (3)
        • Tensorflow tutorial (4)
        • Kaggle and Dacon (4)
        • 에러 코드 (8)
        • FastAPI (8)
        • Airflow (29)
        • Crawling (6)
        • Django (14)
        • AWS (18)
        • Spark (5)
      • Minding's Reading (30)
        • 머신러닝 딥러닝에 필요한 기초 수학 with 파이.. (2)
        • 칼만필터는 어렵지 않아 (11)
        • 밑바닥부터 시작하는 딥러닝 (6)
        • 메이저리그 야구 통계학 2e (8)
        • 논문읽기 (2)
        • 빅데이터를 지탱하는 기술 (1)
      • Minding's Life (5)
        • 주식 (4)
        • 각종 소식 (1)
  • 블로그 메뉴

    • 홈
    • Baseball
    • Programming
    • Reading
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Python
    코딩테스트
    게임개발
    야구
    프로그래머스
    mlb stats api
    넘파이
    django
    칼만필터는어렵지않아
    pygame
    데이터 엔지니어
    KalmanFilter
    머신러닝
    파이썬
    Airflow
    에어플로우
    AWS
    파이게임
    MLB
    딥러닝
    데이터분석
    django python
    칼만필터는어렵지않아파이썬
    파이썬게임개발
    FastAPI
    칼만필터는어렵지않아python
    KBO
    질롱코리아
    칼만필터
    메이저리그
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Minding
[Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기
상단으로

티스토리툴바