본문 바로가기

반응형

머신러닝

[ML / DL] KNN (K-Nearest-Neighbor, K-최근접 이웃) 오늘은 KNN에 대해 공부해보았다. KNN (K-Nearest-Neighbor, K-최근접 이웃) 새로운 데이터가 주어졌을 때 기존 데이터에서 가장 가까운 k개 이웃의 정보를 통해 새로운 데이터를 예측 분류문제라면 주변 이웃정보를 토대로 투표, 회귀문제라면 주변 이웃정보들의 평균이 예측값이 됨 KNN 프로세스 학습이 따로 필요하지 않은 방법론 새로운 데이터가 들어오면, 기존 데이터 사이의 거리를 재서 이웃들을 뽑음 모델을 별도로 구축하지 않는다는 뜻의 게으른 모델(Lazy model) / 거리 기반 학습(Instance-based Learning) 이라고 함 그 대신 학습모델보다 빠른 예측이 가능 KNN 하이퍼파라미터 거리 측정 방법 탐색할 이웃 수(k) k가 작을경우 데이터의 지역적 특성을 지나치게 반.. 더보기
[ML/DL] 랜덤포레스트(Random Forest) & 앙상블(Ensemble) 오늘은 랜덤포레스트에 대해 알아보고자 한다. 랜덤포레스트는 기본적으로 앙상블 모델이기 때문에, 앙상블 기법과 간단한 개념도 복습하였다. 랜덤포레스트(Random Forest) 여러 결정트리로부터 분류 결과를 집계하여 결론을 내리는 기법 결정트리의 오버피팅을 막을 수 있는 전략 랜덤포레스트 프로세스 트리 생성에 무작위성 투입하여 결정트리를 많이 만듦 각 트리가 고유하게 만들어지도록 무작위 선택 (Bootstrap Sample) 기존 트리와 달리 무작위로 선택 후 후보들 중 최선의 테스트 도출 Bagging Features 결정트리를 만들 때 속성 선택에 있어 제한을 두어 다양성을 줌 일반적으로 특성(칼럼) 개수의 제곱근을 임의적으로 선택하는 특성 개수로 활용 (ex. 25개의 칼럼이 있다면 5개의 칼럼 선.. 더보기
[ML / DL] 의사결정나무 (Decision Tree) 의사결정나무 (Decision Tree) 데이터가 나타내는 패턴들을 예측 가능한 규칙들의 조합으로 나타낸 모형 (모양이 나무가지가 뻗어나가는 모양) 결정트리의 특징 분류와 회귀문제 모두에서 사용가능 True / False 또는 Yes / No 질문들로 이어가며 학습 (특정 질문에 따라 데이터를 구분) 질문/정답이 들어있는 상자를 Node라고 하며 맨 위의 있는 상자를 Root Node, 맨 마지막에 위치한 상자들을 Terminal Node / Leaf Node라고 함 알고리즘이 직관적이고 규칙파악이 용이함 데이터 전처리 작업이 덜 필요함 결정트리 프로세스 데이터를 가장 잘 구분할 수 있는 질문(특성)으로 데이터를 나눔 나뉜 각 범주에서 데이터를 가장 잘 구분할 수 있는 질문으로 나눔 (반복) 데이터를 지.. 더보기
[ML/DL] 로지스틱 회귀 (Logistic Regression) 오늘은 로지스틱 회귀에 대해서 알아보았다. 로지스틱 회귀에 대한 자료와 정보는 아래 링크를 참고하였다. https://datascienceschool.net/03%20machine%20learning/10.01%20%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1%20%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D.html 6.1 로지스틱 회귀분석 — 데이터 사이언스 스쿨 .ipynb .pdf to have style consistency --> datascienceschool.net https://hleecaster.com/ml-logistic-regression-concept/ 로지스틱회귀(Logistic Regression) 쉽게 이해하기 - 아무튼 워라밸 본 포스.. 더보기
[Numpy Exercise 100] 91번 ~ 100번 문제풀이 1번 ~ 30번 문제풀이 [Numpy exercise 100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접 준비를 위해 numpy를 다시 한번 복습하고자 Numpy excersise 100문제를 풀기로 마음을 먹었다. https://github.com/rougier/numpy-100 GitHub - rougier/nu.. minding-deep-learning.tistory.com 31번 ~ 60번 문제풀이 [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접.. 더보기
[Numpy exercise 100] 61번 ~ 70번 문제풀이 [Numpy exercise 100] 1번 ~ 30번 문제풀이 [Numpy exercise 100] 1번 ~ 30번 문제풀이 Data Scientist로의 역량 강화와 데이터 분석 분야 면접 준비를 위해 numpy를 다시 한번 복습하고자 Numpy excersise 100문제를 풀기로 마음을 먹었다. https://github.com/rougier/numpy-100 GitHub - rougier/nu.. minding-deep-learning.tistory.com [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise 100] 31번 ~ 60번 문제풀이 [Numpy exercise-100] 1번 ~ 30번 문제풀이 [Numpy exercise-100] 1번 ~ 30번.. 더보기
[MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 3. 데이터 재전처리하여 예측 https://github.com/JeongMinHyeok/Handling_MLB_Statcast (predict_HR 폴더) GitHub - JeongMinHyeok/Handling_MLB_Statcast Contribute to JeongMinHyeok/Handling_MLB_Statcast development by creating an account on GitHub. github.com 이전 발행글 (최초 전처리 및 모델링 / 예측) MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering [MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering 머신러닝 코드.. 더보기
[MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 2. Modeling & Prediction 작성 코드 및 데이터 (Github, Predict_HR폴더) : https://github.com/JeongMinHyeok/Handling_MLB_Statcast GitHub - JeongMinHyeok/Handling_MLB_Statcast Contribute to JeongMinHyeok/Handling_MLB_Statcast development by creating an account on GitHub. github.com EDA & Data Engineering [이전포스팅] 2021.07.27 - [Handling MLB StatCast] - [MLB 스탯캐스트] 머신러닝으로 MLB 타자들의 최종 홈런 성적 예측해보기 - 1. EDA & Data Engineering [MLB 스탯캐스트] 머.. 더보기

728x90