본문 바로가기
반응형

Minding's Reading/메이저리그 야구 통계학 2e8

[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3) 정규분포 : 얼마나 칠 것인가? 타율 / 출루율 / 장타율 등 연속형 변수들은 데이터 상호독립성을 띄고 있기 때문에 평균을 중심으로 정규분포를 구성 홈런 / 타점 등 이산형변수도 데이터가 충분하다면 중심극한정리에 기반해 정규분포의 모양을 띤다고 할 수 있음 중심극한정리? 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리 중심극한정리는 연속형 변수 및 이산 변수에 데이터 상호 독립성을 유지하면서, 회귀분석에 사용될 수 있는 이론적 근거를 제시 (데이터 양이 충분해야 함) 서로 독립적이지 않은 데이터의 예 : 선수마다 보유하고 있는 네트워크 library(sand) library(igraph) g 2023. 5. 10.
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2) 확률과 우도 확률 (Probability) 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다. 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함 조이 보토의 출루율 예시 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다. 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가? 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다. 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다. 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이.. 2023. 5. 8.
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1) 인과관계 > 상관관계 > 우연 과학적으로 인정받은 인과관계는 같은 조건 하 미래에도 반복될 수 있는 예측능력이 있음 인과관계의 필수조건 상관관계의 한계점 상관관계 분석 자체는 연구방법 / 주제가 맞다면 문제는 없지만, 이를 인과관계로 해석한다면 확대 해석 문제 발생 상관관계는 변수 간 강한 연관관계는 알 수 있지만, 그 연관성이 정말 신뢰할 만한 지 검증할 방법이 없음 또한 상관관계는 어떤 원인으로 특정 결과가 발생하는지 '예측'하는 욕구를 충족시켜주지 못함 상관관계가 인과관계가 되기 위해 필요한 것 반복적 패턴이 발생해야 함 시간적 순서가 확보돼야 함 실제 논리적으로 설명이 가능해야 함 예시 : 미국 대선 결과와 월드시리즈 우승팀과의 관계 연도 챔피언이 속한 리그 대통령이 된 후보의 정당 2000 AL.. 2023. 5. 1.
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2) 데이터에서 룰을 찾다 : 연관성 분석 분석할 데이터에서 패턴과 연관성을 잘 파악하면 마케팅 등 전략에 활용할 여지가 많음 연관성 분석 연관성 분석은 변수 내 개별 관측자료가 여타 관측자료와 어떻게 어울리는지 파악하는데 주력 ex) 이적시장에서 특정 팀 출신의 선수를 전략적으로 선호하는가? # 전처리 library(Lahman) a 2010&yearID {MIA} 0.00171969 1.0000000 [3] {NYA, PHI} => {PIT} 0.00171969 0.5000000 coverage lift count [1] 0.018916595 10.744642 25 [2] 0.001719690 18.910569 4 [3] 0.003439381 8.551471 4 lhs Length:3 Length:3 Cl.. 2023. 4. 25.
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1) 과학적 측정 야구는 팀의 조화가 중요한 다른 스포츠(축구, 농구)보다 선수 개인 능력이 승리에 미치는 영향이 월등히 큼. 야구 뿐 아니라 다양한 분야에서 평가 및 가치를 측정하는 직업들이 존재 전문성의 기준은 무엇인가? 전문가 집단의 진입장벽 (ex. 시험 등) 경험이 쌓이며 대상을 볼 줄 아는 안목, 통찰력, 노하우 등 전문적 지식이 과학적 지식은 아님 경험과 노하우가 쌓이면서 모든 사건에 균등한 관심보다는 특정 사건에 집중하는 선택적 관심을 가지기 때문 전통적인 스카우터가 홈런 등 기본 툴에 집중하고 출루율, 볼넷 등을 가볍게 보는게 그 예시 선택적 관심의 벽을 넘어 데이터 입수 / 분석 / 해석 능력이 있다면, 비전문가도 의사결정이 가능 측정의 신뢰도 누가 평가했느냐보다는, 모든 요인을 고려하는 균.. 2023. 4. 24.
[메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝 마이닝의 개념 데이터의 발굴에서부터 해석으로 이어지는 일련의 과정을 뜻함. - 분석 목적에 맞는 데이터를 추출(준비) - 분석가능한 형태의 데이터로 변형 - 변형된 데이터를 이용해 상관관계 / 유사집단 / 변화 패턴 파악 등 분석 및 해석 간단한 데이터 직접 만들어보기 변수에 5개의 타율 데이터가 순서대로 나열되도록 코딩 # a : 변수이름 # [,1] [,2] [1,] "C" "26" [2,] "F" "22" [3,] "A" "31" [4,] "D" "30" [5,] "B" "38" [6,] "E" "29" # 칼럼 이름 변경 colnames(d) > player avg age 1 A 0.28 31 2 B 0.257 38 3 C 0.312 26 4 D 0.197 30 5 E 0.288 29 6 F 0... 2023. 4. 20.
728x90
반응형