[ML / DL] KNN (K-Nearest-Neighbor, K-최근접 이웃)
·
Minding's Programming/Knowledge
오늘은 KNN에 대해 공부해보았다. KNN (K-Nearest-Neighbor, K-최근접 이웃) 새로운 데이터가 주어졌을 때 기존 데이터에서 가장 가까운 k개 이웃의 정보를 통해 새로운 데이터를 예측 분류문제라면 주변 이웃정보를 토대로 투표, 회귀문제라면 주변 이웃정보들의 평균이 예측값이 됨 KNN 프로세스 학습이 따로 필요하지 않은 방법론 새로운 데이터가 들어오면, 기존 데이터 사이의 거리를 재서 이웃들을 뽑음 모델을 별도로 구축하지 않는다는 뜻의 게으른 모델(Lazy model) / 거리 기반 학습(Instance-based Learning) 이라고 함 그 대신 학습모델보다 빠른 예측이 가능 KNN 하이퍼파라미터 거리 측정 방법 탐색할 이웃 수(k) k가 작을경우 데이터의 지역적 특성을 지나치게 반..
[ML/DL] 랜덤포레스트(Random Forest) & 앙상블(Ensemble)
·
Minding's Programming/Knowledge
오늘은 랜덤포레스트에 대해 알아보고자 한다. 랜덤포레스트는 기본적으로 앙상블 모델이기 때문에, 앙상블 기법과 간단한 개념도 복습하였다. 랜덤포레스트(Random Forest) 여러 결정트리로부터 분류 결과를 집계하여 결론을 내리는 기법 결정트리의 오버피팅을 막을 수 있는 전략 랜덤포레스트 프로세스 트리 생성에 무작위성 투입하여 결정트리를 많이 만듦 각 트리가 고유하게 만들어지도록 무작위 선택 (Bootstrap Sample) 기존 트리와 달리 무작위로 선택 후 후보들 중 최선의 테스트 도출 Bagging Features 결정트리를 만들 때 속성 선택에 있어 제한을 두어 다양성을 줌 일반적으로 특성(칼럼) 개수의 제곱근을 임의적으로 선택하는 특성 개수로 활용 (ex. 25개의 칼럼이 있다면 5개의 칼럼 선..
[ML / DL] 의사결정나무 (Decision Tree)
·
Minding's Programming/Knowledge
의사결정나무 (Decision Tree) 데이터가 나타내는 패턴들을 예측 가능한 규칙들의 조합으로 나타낸 모형 (모양이 나무가지가 뻗어나가는 모양) 결정트리의 특징 분류와 회귀문제 모두에서 사용가능 True / False 또는 Yes / No 질문들로 이어가며 학습 (특정 질문에 따라 데이터를 구분) 질문/정답이 들어있는 상자를 Node라고 하며 맨 위의 있는 상자를 Root Node, 맨 마지막에 위치한 상자들을 Terminal Node / Leaf Node라고 함 알고리즘이 직관적이고 규칙파악이 용이함 데이터 전처리 작업이 덜 필요함 결정트리 프로세스 데이터를 가장 잘 구분할 수 있는 질문(특성)으로 데이터를 나눔 나뉜 각 범주에서 데이터를 가장 잘 구분할 수 있는 질문으로 나눔 (반복) 데이터를 지..
[ML/DL] 로지스틱 회귀 (Logistic Regression)
·
Minding's Programming/Knowledge
오늘은 로지스틱 회귀에 대해서 알아보았다. 로지스틱 회귀에 대한 자료와 정보는 아래 링크를 참고하였다. https://datascienceschool.net/03%20machine%20learning/10.01%20%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1%20%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D.html 6.1 로지스틱 회귀분석 — 데이터 사이언스 스쿨 .ipynb .pdf to have style consistency --> datascienceschool.net https://hleecaster.com/ml-logistic-regression-concept/ 로지스틱회귀(Logistic Regression) 쉽게 이해하기 - 아무튼 워라밸 본 포스..
[ML/DL] 선형회귀 (Linear Regression)
·
Minding's Programming/Knowledge
인프런에서 무료강의 이벤트를 한다고 하여 여러 가지 강의를 들을 수 있게 되었다. 그 중 '머신러닝 처음 시작하기' 라는 강의를 들으면서 예전에 배웠던 내용들을 다시 한 번 복습하고자 한다. 강의내용만을 공부하기 보다는 스스로 찾아보고 학습하며 개념을 확실히 깨우치는 것이 목표이다. [딥 러닝을 이용한 자연어 처리 입문]을 주로 참고했다. https://wikidocs.net/21670 03) 선형 회귀(Linear Regression) 딥 러닝을 이해하기 위해서는 선형 회귀(Linear Regression)와 로지스틱 회귀(Logsitic Regression)를 이해할 필요가 있습니다. 이번 챕터에서는 머 ... wikidocs.net 선형 회귀 선형회귀는 주어진 데이터로부터 x(독립변수)와 y(종속변..
[MLB Stats API] 파이썬 패키지로 MLB Stats API 사용해보기
·
Minding's Baseball/MLB Statcast
Fangraph나 MLB savant 홈페이지에서 직접 csv, DB파일을 다운로드 받는 것이 아닌 MLB서버에 연결된 API로 손쉽게 데이터를 구할 수 있는 방법을 야구공작소 글을 보며 알게되었다. 그 중 파이썬으로 API를 이용할 수 있도록 구현해놓은 패키지가 있어, 사용법을 알아보게 되었다. 제공해주는 데이터의 종류가 매우 풍부해 무궁무진한 활용이 가능하다고 생각한다. 아래는 내가 참고한 야구공작소의 [MLB Stats API’라고 혹시 들어보았나요] 글과 파이썬 패키지를 제작한 개발자의 Github이다. https://yagongso.com/?p=15519 'MLB Stats API'라고 혹시 들어보았나요 - 야구공작소 새로운 데이터 수집방법 사람들은 여러 방법을 통해 MLB 데이터를 수집한다. ..
[MLB Stats API] statsapi.team_leader_data(teamId, leaderCategories, season=datetime.now().year, leaderGameTypes="R", limit=10)
·
Minding's Baseball/MLB Statcast
해당 팀의 특정 스탯(지표)에 대한 팀 내 순위 출력 검색가능한 스탯종류는 statsapi.meta('leagueLeaderTypes')로 검색가능 # 2013년 신시내티 레즈의 출루율 상위 5명 print(statsapi.team_leader_data(113,'onBasePercentage',limit=5,season=2013)) [[1, 'Joey Votto', '.435'], [2, 'Shin-Soo Choo', '.423'], [3, 'Jay Bruce', '.329'], [4, 'Todd Frazier', '.314'], [5, 'Brandon Phillips', '.310']]
[MLB Stats API] statsapi.standings_data(leagueId="103,104", division="all", include_wildcard=True, season=None, standingsTypes=None, date=None)
·
Minding's Baseball/MLB Statcast
[MLB Stats API] 파이썬 패키지로 MLB Stats API 사용해보기 [MLB Stats API] 파이썬 패키지로 MLB Stats API 사용해보기 Fangraph나 MLB savant 홈페이지에서 직접 csv, DB파일을 다운로드 받는 것이 아닌 MLB서버에 연결된 API로 손쉽게 데이터를 구할 수 있는 방법을 야구공작소 글을 보며 알게되었다. 그 중 파이썬으로 API minding-deep-learning.tistory.com 지정한 날짜 및 리그 팀 순위를 딕셔너리로 출력 LeagueId와 divisionId(지구)를 모두 사용하여 출력하는 것이 정확함 날짜 기본값은 현재, date파라미터를 통해 날짜 설정 (날짜 형식 : MM/DD/YYYY , ex)04/25/2021) # 2019년..