HTML 썸네일형 리스트형 [HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리 인터넷과 웹웹이 등장하기 까지의 과정:네트워크: 두 컴퓨터 간의 통신망LAN: 근거리 통신망 네트워크 Internet: 범지구적으로 연결된 네트워크WEB: 인터넷 상에서 정보를 교환하기 위한 시스템으로 개발됨 웹에서 정보를 주고받는 방법클라이언트(사용자)가 서버에 정보 요청 (= Request)서버에서 클라이언트 요청에 대한 처리 진행상황에 따른 응답 (응답코드를 리턴, ex) 2XX(성공), 4XX(클라이언트 에러), 5XX(서버 에러)) HTTP(Hypertext Transfer Protocol)의 구조HTTP는 웹 상에서 정보를 주고받기 위한 일종의 약속이다. 기본적으로, 클라이언트에서 서버로 정보를 요청하고(HTTP 요청(Request)) 요청된 정보에 대해 서버가 클라이언트에게 응답(HTTP 응.. 더보기 [Python/Bleach] Bleach 라이브러리 이용해 HTML 태그 삭제하기 네이버 뉴스 API를 통해 뉴스 데이터를 수집하다보니, 뉴스 제목에 해당하는 title에 HTML 태그가 그대로 들어와 문자열에 포함되는 경우가 있었다. 이 문자열 그대로 홈페이지에 노출할 예정이었다 보니, 해당 문자열을 필터를 통해 HTML 태그를 지울 필요가 있었다. 그럴때는 Bleach의 clean메서드를 이용하면 해결할 수 있다. from bleach import cleanarticle = '가나다라'print(clean(article, tags=[], strip=True))>>>'가나다라' 더보기 이전 1 다음