[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)
·
Minding's Reading/메이저리그 야구 통계학 2e
확률과 우도 확률 (Probability) 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다. 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함 조이 보토의 출루율 예시 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다. 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가? 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다. 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다. 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이..
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2)
·
Minding's Reading/메이저리그 야구 통계학 2e
데이터에서 룰을 찾다 : 연관성 분석 분석할 데이터에서 패턴과 연관성을 잘 파악하면 마케팅 등 전략에 활용할 여지가 많음 연관성 분석 연관성 분석은 변수 내 개별 관측자료가 여타 관측자료와 어떻게 어울리는지 파악하는데 주력 ex) 이적시장에서 특정 팀 출신의 선수를 전략적으로 선호하는가? # 전처리 library(Lahman) a 2010&yearID {MIA} 0.00171969 1.0000000 [3] {NYA, PHI} => {PIT} 0.00171969 0.5000000 coverage lift count [1] 0.018916595 10.744642 25 [2] 0.001719690 18.910569 4 [3] 0.003439381 8.551471 4 lhs Length:3 Length:3 Cl..
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1)
·
Minding's Reading/메이저리그 야구 통계학 2e
과학적 측정 야구는 팀의 조화가 중요한 다른 스포츠(축구, 농구)보다 선수 개인 능력이 승리에 미치는 영향이 월등히 큼. 야구 뿐 아니라 다양한 분야에서 평가 및 가치를 측정하는 직업들이 존재 전문성의 기준은 무엇인가? 전문가 집단의 진입장벽 (ex. 시험 등) 경험이 쌓이며 대상을 볼 줄 아는 안목, 통찰력, 노하우 등 전문적 지식이 과학적 지식은 아님 경험과 노하우가 쌓이면서 모든 사건에 균등한 관심보다는 특정 사건에 집중하는 선택적 관심을 가지기 때문 전통적인 스카우터가 홈런 등 기본 툴에 집중하고 출루율, 볼넷 등을 가볍게 보는게 그 예시 선택적 관심의 벽을 넘어 데이터 입수 / 분석 / 해석 능력이 있다면, 비전문가도 의사결정이 가능 측정의 신뢰도 누가 평가했느냐보다는, 모든 요인을 고려하는 균..
[메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝
·
Minding's Reading/메이저리그 야구 통계학 2e
마이닝의 개념 데이터의 발굴에서부터 해석으로 이어지는 일련의 과정을 뜻함. - 분석 목적에 맞는 데이터를 추출(준비) - 분석가능한 형태의 데이터로 변형 - 변형된 데이터를 이용해 상관관계 / 유사집단 / 변화 패턴 파악 등 분석 및 해석 간단한 데이터 직접 만들어보기 변수에 5개의 타율 데이터가 순서대로 나열되도록 코딩 # a : 변수이름 # [,1] [,2] [1,] "C" "26" [2,] "F" "22" [3,] "A" "31" [4,] "D" "30" [5,] "B" "38" [6,] "E" "29" # 칼럼 이름 변경 colnames(d) > player avg age 1 A 0.28 31 2 B 0.257 38 3 C 0.312 26 4 D 0.197 30 5 E 0.288 29 6 F 0...
[MLB 스탯캐스트] 타구속도(Exit Velocity, EV)와 홈런개수의 상관관계
·
Minding's Baseball/MLB Statcast
오래 전 아주 어렸을 때부터 야구를 좋아했었고, 중학생 시절부터 야구에 관련된 직업을 가지겠다는 꿈을 가졌다. Python부터 머신러닝까지 데이터 분석 기법들을 배우기 시작한 계기도 야구 데이터에 관심을 크게 가졌기 때문이다. 평소부터 야구데이터를 다뤄보고 싶었지만, 스탯캐스트가 공개된 2016년부터 너무 많은 시간이 흘렀다. 좀 더 배우고, 좀 더 깊게 데이터를 다루고 싶은 마음때문에 이것저것 건드려보았지만, 결국 내가 제일 즐거웠던 건 빅콘테스트 퓨처스리그 때 팀 별 잔여경기 승률을 맞추는 문제였다. 지금이라도 MLB 스탯캐스트에 공개된 데이터를 가지고 이것저것 개인적인 호기심을 풀어보려고 한다. 부족하더라도 조금씩 조금씩 직접 데이터를 다루며 배워가보려고 한다. 본인의 Github : https:/..