Today's Minding

오늘은 KNN에 대해 공부해보았다. KNN (K-Nearest-Neighbor, K-최근접 이웃) 새로운 데이터가 주어졌을 때 기존 데이터에서 가장 가까운 k개 이웃의 정보를 통해 새로운 데이터를 예측 분류문제라면 주변 이웃정보를 토대로 투표, 회귀문제라면 주변 이웃정보들의 평균이 예측값이 됨 KNN 프로세스 학습이 따로 필요하지 않은 방법론 새로운 데이터가 들어오면, 기존 데이터 사이의 거리를 재서 이웃들을 뽑음 모델을 별도로 구축하지 않는다는 뜻의 게으른 모델(Lazy model) / 거리 기반 학습(Instance-based Learning) 이라고 함 그 대신 학습모델보다 빠른 예측이 가능 KNN 하이퍼파라미터 거리 측정 방법 탐색할 이웃 수(k) k가 작을경우 데이터의 지역적 특성을 지나치게 반..

오늘은 랜덤포레스트에 대해 알아보고자 한다. 랜덤포레스트는 기본적으로 앙상블 모델이기 때문에, 앙상블 기법과 간단한 개념도 복습하였다. 랜덤포레스트(Random Forest) 여러 결정트리로부터 분류 결과를 집계하여 결론을 내리는 기법 결정트리의 오버피팅을 막을 수 있는 전략 랜덤포레스트 프로세스 트리 생성에 무작위성 투입하여 결정트리를 많이 만듦 각 트리가 고유하게 만들어지도록 무작위 선택 (Bootstrap Sample) 기존 트리와 달리 무작위로 선택 후 후보들 중 최선의 테스트 도출 Bagging Features 결정트리를 만들 때 속성 선택에 있어 제한을 두어 다양성을 줌 일반적으로 특성(칼럼) 개수의 제곱근을 임의적으로 선택하는 특성 개수로 활용 (ex. 25개의 칼럼이 있다면 5개의 칼럼 선..

의사결정나무 (Decision Tree) 데이터가 나타내는 패턴들을 예측 가능한 규칙들의 조합으로 나타낸 모형 (모양이 나무가지가 뻗어나가는 모양) 결정트리의 특징 분류와 회귀문제 모두에서 사용가능 True / False 또는 Yes / No 질문들로 이어가며 학습 (특정 질문에 따라 데이터를 구분) 질문/정답이 들어있는 상자를 Node라고 하며 맨 위의 있는 상자를 Root Node, 맨 마지막에 위치한 상자들을 Terminal Node / Leaf Node라고 함 알고리즘이 직관적이고 규칙파악이 용이함 데이터 전처리 작업이 덜 필요함 결정트리 프로세스 데이터를 가장 잘 구분할 수 있는 질문(특성)으로 데이터를 나눔 나뉜 각 범주에서 데이터를 가장 잘 구분할 수 있는 질문으로 나눔 (반복) 데이터를 지..

오늘은 로지스틱 회귀에 대해서 알아보았다. 로지스틱 회귀에 대한 자료와 정보는 아래 링크를 참고하였다. https://datascienceschool.net/03%20machine%20learning/10.01%20%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1%20%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D.html 6.1 로지스틱 회귀분석 — 데이터 사이언스 스쿨 .ipynb .pdf to have style consistency --> datascienceschool.net https://hleecaster.com/ml-logistic-regression-concept/ 로지스틱회귀(Logistic Regression) 쉽게 이해하기 - 아무튼 워라밸 본 포스..

인프런에서 무료강의 이벤트를 한다고 하여 여러 가지 강의를 들을 수 있게 되었다. 그 중 '머신러닝 처음 시작하기' 라는 강의를 들으면서 예전에 배웠던 내용들을 다시 한 번 복습하고자 한다. 강의내용만을 공부하기 보다는 스스로 찾아보고 학습하며 개념을 확실히 깨우치는 것이 목표이다. [딥 러닝을 이용한 자연어 처리 입문]을 주로 참고했다. https://wikidocs.net/21670 03) 선형 회귀(Linear Regression) 딥 러닝을 이해하기 위해서는 선형 회귀(Linear Regression)와 로지스틱 회귀(Logsitic Regression)를 이해할 필요가 있습니다. 이번 챕터에서는 머 ... wikidocs.net 선형 회귀 선형회귀는 주어진 데이터로부터 x(독립변수)와 y(종속변..

Fangraph나 MLB savant 홈페이지에서 직접 csv, DB파일을 다운로드 받는 것이 아닌 MLB서버에 연결된 API로 손쉽게 데이터를 구할 수 있는 방법을 야구공작소 글을 보며 알게되었다. 그 중 파이썬으로 API를 이용할 수 있도록 구현해놓은 패키지가 있어, 사용법을 알아보게 되었다. 제공해주는 데이터의 종류가 매우 풍부해 무궁무진한 활용이 가능하다고 생각한다. 아래는 내가 참고한 야구공작소의 [MLB Stats API’라고 혹시 들어보았나요] 글과 파이썬 패키지를 제작한 개발자의 Github이다. https://yagongso.com/?p=15519 'MLB Stats API'라고 혹시 들어보았나요 - 야구공작소 새로운 데이터 수집방법 사람들은 여러 방법을 통해 MLB 데이터를 수집한다. ..

해당 팀의 특정 스탯(지표)에 대한 팀 내 순위 출력 검색가능한 스탯종류는 statsapi.meta('leagueLeaderTypes')로 검색가능 # 2013년 신시내티 레즈의 출루율 상위 5명 print(statsapi.team_leader_data(113,'onBasePercentage',limit=5,season=2013)) [[1, 'Joey Votto', '.435'], [2, 'Shin-Soo Choo', '.423'], [3, 'Jay Bruce', '.329'], [4, 'Todd Frazier', '.314'], [5, 'Brandon Phillips', '.310']]

[MLB Stats API] 파이썬 패키지로 MLB Stats API 사용해보기 [MLB Stats API] 파이썬 패키지로 MLB Stats API 사용해보기 Fangraph나 MLB savant 홈페이지에서 직접 csv, DB파일을 다운로드 받는 것이 아닌 MLB서버에 연결된 API로 손쉽게 데이터를 구할 수 있는 방법을 야구공작소 글을 보며 알게되었다. 그 중 파이썬으로 API minding-deep-learning.tistory.com 지정한 날짜 및 리그 팀 순위를 딕셔너리로 출력 LeagueId와 divisionId(지구)를 모두 사용하여 출력하는 것이 정확함 날짜 기본값은 현재, date파라미터를 통해 날짜 설정 (날짜 형식 : MM/DD/YYYY , ex)04/25/2021) # 2019년..

티스토리툴바