본문 바로가기

반응형

크롤링

[HTTP/Python] HTTP 통신, 웹 스크래핑/크롤링 기본 개념 정리 인터넷과 웹웹이 등장하기 까지의 과정:네트워크: 두 컴퓨터 간의 통신망LAN: 근거리 통신망 네트워크 Internet: 범지구적으로 연결된 네트워크WEB: 인터넷 상에서 정보를 교환하기 위한 시스템으로 개발됨 웹에서 정보를 주고받는 방법클라이언트(사용자)가 서버에 정보 요청 (= Request)서버에서 클라이언트 요청에 대한 처리 진행상황에 따른 응답 (응답코드를 리턴, ex) 2XX(성공), 4XX(클라이언트 에러), 5XX(서버 에러)) HTTP(Hypertext Transfer Protocol)의 구조HTTP는 웹 상에서 정보를 주고받기 위한 일종의 약속이다. 기본적으로, 클라이언트에서 서버로 정보를 요청하고(HTTP 요청(Request)) 요청된 정보에 대해 서버가 클라이언트에게 응답(HTTP 응.. 더보기
[Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기 2024.07.01 - [Minding's Programming/Knowledge] - [Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기 [Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기야구장 소개 홈페이지를 만드는 데 경기 일정도 한 페이지에 보여주는 곳이 있으면 좋겠다고 생각이 들었다. KBO 홈페이지에 있는 경기 일정을 주기적으로 크롤링해 이 홈페이지에 노출시키고자minding-deep-learning.tistory.com 이 글은 위 링크의 크롤링 코드를 보완한 코드와 함께 어떻게 보완했는지에 대한 설명을 위한 글이다. 전체 코드 from selenium import webdriverfrom selenium.webdriver.chrome.. 더보기
[Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기 https://minding-deep-learning.tistory.com/180 [Python/Selenium] (업데이트)Selenium으로 KBO 경기 일정 크롤링하기2024.07.01 - [Minding's Programming/Knowledge] - [Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기 [Python/Selenium] Selenium으로 KBO 경기 일정 크롤링하기야구장 소개 홈페이지를 만드는 데 경기 일정도 한 페minding-deep-learning.tistory.com위 글은 본문의 코드를 보완한 코드이다. 야구장 소개 홈페이지를 만드는 데 경기 일정도 한 페이지에 보여주는 곳이 있으면 좋겠다고 생각이 들었다. KBO 홈페이지에 있는 경기 일정을 .. 더보기
[FastAPI/Crawling] 네이버 뉴스 API를 활용해 야구 뉴스 데이터 수집하기 토이 프로젝트로 야구장 관련 홈페이지를 만들고 있는데, KBO 야구장을 소개하는 것이다보니 해당 뉴스를 함께 노출할 수 있었으면 좋겠다는 생각에 야구 뉴스만을 수집하는 크롤러를 제작해보았다. 실시간으로 뉴스 업데이트를 해주는 것이 목표이기 때문에, 기본적으로 비동기적 실행이 가능하도록 제작했다. 우선 '야구'라는 키워드를 가진 뉴스를 모두 수집한 다음 link라는 칼럼(네이버 뉴스 상의 하이퍼링크)에서 'kbaseball'이라는 키워드가 포함된 것만 DB에 저장할 리스트에 추가하는 방식으로 설계했다. import aiohttpimport asynciofrom config import get_secretclass NaverNewsScraper: NAVER_API_NEWS = "https://opena.. 더보기

728x90