'머신러닝' 태그의 글 목록

오늘은 KNN에 대해 공부해보았다. KNN (K-Nearest-Neighbor, K-최근접 이웃) 새로운 데이터가 주어졌을 때 기존 데이터에서 가장 가까운 k개 이웃의 정보를 통해 새로운 데이터를 예측 분류문제라면 주변 이웃정보를 토대로 투표, 회귀문제라면 주변 이웃정보들의 평균이 예측값이 됨 KNN 프로세스 학습이 따로 필요하지 않은 방법론 새로운 데이터가 들어오면, 기존 데이터 사이의 거리를 재서 이웃들을 뽑음 모델을 별도로 구축하지 않는다는 뜻의 게으른 모델(Lazy model) / 거리 기반 학습(Instance-based Learning) 이라고 함 그 대신 학습모델보다 빠른 예측이 가능 KNN 하이퍼파라미터 거리 측정 방법 탐색할 이웃 수(k) k가 작을경우 데이터의 지역적 특성을 지나치게 반..

오늘은 랜덤포레스트에 대해 알아보고자 한다. 랜덤포레스트는 기본적으로 앙상블 모델이기 때문에, 앙상블 기법과 간단한 개념도 복습하였다. 랜덤포레스트(Random Forest) 여러 결정트리로부터 분류 결과를 집계하여 결론을 내리는 기법 결정트리의 오버피팅을 막을 수 있는 전략 랜덤포레스트 프로세스 트리 생성에 무작위성 투입하여 결정트리를 많이 만듦 각 트리가 고유하게 만들어지도록 무작위 선택 (Bootstrap Sample) 기존 트리와 달리 무작위로 선택 후 후보들 중 최선의 테스트 도출 Bagging Features 결정트리를 만들 때 속성 선택에 있어 제한을 두어 다양성을 줌 일반적으로 특성(칼럼) 개수의 제곱근을 임의적으로 선택하는 특성 개수로 활용 (ex. 25개의 칼럼이 있다면 5개의 칼럼 선..

의사결정나무 (Decision Tree) 데이터가 나타내는 패턴들을 예측 가능한 규칙들의 조합으로 나타낸 모형 (모양이 나무가지가 뻗어나가는 모양) 결정트리의 특징 분류와 회귀문제 모두에서 사용가능 True / False 또는 Yes / No 질문들로 이어가며 학습 (특정 질문에 따라 데이터를 구분) 질문/정답이 들어있는 상자를 Node라고 하며 맨 위의 있는 상자를 Root Node, 맨 마지막에 위치한 상자들을 Terminal Node / Leaf Node라고 함 알고리즘이 직관적이고 규칙파악이 용이함 데이터 전처리 작업이 덜 필요함 결정트리 프로세스 데이터를 가장 잘 구분할 수 있는 질문(특성)으로 데이터를 나눔 나뉜 각 범주에서 데이터를 가장 잘 구분할 수 있는 질문으로 나눔 (반복) 데이터를 지..

오늘은 로지스틱 회귀에 대해서 알아보았다. 로지스틱 회귀에 대한 자료와 정보는 아래 링크를 참고하였다. https://datascienceschool.net/03%20machine%20learning/10.01%20%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1%20%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D.html 6.1 로지스틱 회귀분석 — 데이터 사이언스 스쿨 .ipynb .pdf to have style consistency --> datascienceschool.net https://hleecaster.com/ml-logistic-regression-concept/ 로지스틱회귀(Logistic Regression) 쉽게 이해하기 - 아무튼 워라밸 본 포스..

1번 ~ 30번 문제풀이 [Numpy exercise 100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접 준비를 위해 numpy를 다시 한번 복습하고자 Numpy excersise 100문제를 풀기로 마음을 먹었다. https://github.com/rougier/numpy-100 GitHub - rougier/nu.. minding-deep-learning.tistory.com 31번 ~ 60번 문제풀이 [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접..

[Numpy exercise 100] 1번 ~ 30번 문제풀이 [Numpy exercise 100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접 준비를 위해 numpy를 다시 한번 복습하고자 Numpy excersise 100문제를 풀기로 마음을 먹었다. https://github.com/rougier/numpy-100 GitHub - rougier/nu.. minding-deep-learning.tistory.com [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 [Numpy exercise-100] 1번 ~ 30번..

https://github.com/JeongMinHyeok/Handling_MLB_Statcast (predict_HR 폴더) GitHub - JeongMinHyeok/Handling_MLB_Statcast Contribute to JeongMinHyeok/Handling_MLB_Statcast development by creating an account on GitHub. github.com 이전 발행글 (최초 전처리 및 모델링 / 예측) MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering [MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering 머신러닝 코드..

작성 코드 및 데이터 (Github, Predict_HR폴더) : https://github.com/JeongMinHyeok/Handling_MLB_Statcast GitHub - JeongMinHyeok/Handling_MLB_Statcast Contribute to JeongMinHyeok/Handling_MLB_Statcast development by creating an account on GitHub. github.com EDA & Data Engineering [이전포스팅] 2021.07.27 - [Handling MLB StatCast] - [MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering [MLB 스탯캐스트] 머..

티스토리툴바