[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)

2023. 5. 8. 17:46·Minding's Reading/메이저리그 야구 통계학 2e
728x90
반응형

확률과 우도

확률 (Probability)

  • 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다.
    • 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨
    • 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함

조이 보토의 출루율 예시

  • 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다.
  • 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가?
  • 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다.
  • 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다.

베르누이 분포 공식 / 출처 : 나부랭이의 수학블로그

  • 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이 발생할 가능성인 것.
  • x는 사건이 발생한다고 가정했을 때 1, 그렇지 않으면 0을 대입한다.
  • 각 타석마다 베르누이 분포가 발생한다.

베르누이 분포로 구성된 이항확률분포를 구하는 두 가지 방법

1. 수학적으로 구하는 방법

  • 이항확률밀도함수에 출루율과 시행횟수를 대입해서 구하는 방법
  • nCr * p^r * (1-p)^(n-r)
    • n은 총 타석수, r은 몇 번 출루했을 때를 가정하는 지, p는 성공확률이다.
    • .460의 출루율을 가진 선수가 5타석 중 2번 출루할 확률은 33.32%

2. 시뮬레이션 접근법

  • 시뮬레이션을 돌릴 횟수, 타석수, 출루율을 지정해줘야 함
a <- rbinom(10000, 5, 0.46) # 10000번의 시뮬레이션, 5타석, .460의 출루율
table(a)/10000

>>>
a
     0      1      2      3      4      5 
0.0416 0.1905 0.3406 0.2839 0.1236 0.0198
  • 시뮬레이션 결과 2번 출루할 확률이 가장 높으며, 그 확률은 34% 정도다.
  • 이항확률밀도함수의 결과와 비슷한 값을 가짐
  • 시뮬레이션 횟수가 높을수록 변동성이 낮아지며 안정적인 결과를 얻을 수 있다.

 

출루의 조건 : 최대우도추정법

  • 우도의 개념을 이용해 모수를 역추적하는 분석기술은 상당한 관심을 받고 있음
  • 특정 사건의 발생확률을 최대화할 수 있는 조건들을 데이터를 통해 역추적 & 모수 특징 파악
  • 사건 발생 예측하고 미연에 방지하도록 도움을 주는 모델 개발 가능
  • 이처럼 특정 사건의 확률 최대화할 수 있는 파라미터를 찾기 위해 이항확률밀도함수를 역으로 이용하는 방법이 최대우도추정법
    • ex) 로지스틱 회귀분석

조이 보토의 출루율이 알려져 있지 않다면?

  • 만약 5번의 타석 중 2번 출루할 수 있는 확률을 극대화하는데 필요한 출루율을 4할이라고 역추적했다면
  • 4할이라는 수치는 5C2의 확률을 극대화하는 우도(likelihood)가 된다.

확률과 우도가 다른 점

  • 확률은 한 사건의 조건인 출루율을 알고 있어서 5타석 중 2출루가 발생할 빈도에 주목 가능
  • 그러나 출루율을 모르는 경우엔 5타석 중 2출루가 발생할 가장 높은 조건을 찾아야 하며, 그 조건이 우도

확률(위)과 우도(밑)의 다른 점을 설명하는 그림, 우도는 확률을 극대화하는 한 점을 찾는다.

확률 계산과의 비교

  • .460의 조이 보토가 5타석 중 2출루할 이론적 확률값은 33.32%, 시뮬레이션 결과는 34%였다.
  • 거꾸로 5번의 타석 중 2출루할 가능성을 가장 높이는 출루율 모수를 찾아야 한다.
  • 이항확률밀도함수에 전체 시행수인 5(타석)와 성공횟수인 2(출루)를 대입한다.
  • P(x) = 5C2 * OBP^2 * (1-OBP)^3
  • 위 공식에 로그함수를 적용하면 로그의 특성을 활용해 확률의 최대점을 알 수 있다.
    • 로그는 급격히 증가하다가 최댓값에 도달 시 더 이상 증가하지 않는 특성을 가지고 있기 때문

그래프의 최대점은 함수를 미분했을 때 0이 되는 시점, 즉 더이상 증가하지 못하는 위치다.

  • 그래프의 최대점은 0.4 즉, 출루율 4할이다.

시나리오 확률분포 확인

  • 5타석의 뜻은 다섯 번의 시행을 거쳤으며, 0출루 ~ 5출루의 경우까지 6가지 상황마다 다른 확률을 가지게 됨
OBP <- 0.4 # 출루율 4할
base <- 0:5 # 0 ~ 5까지 6가지 케이스
P <- OBP^base*(1-OBP)^(5-base) # 확률계산
case<-choose(5, base)
EV <- P*case
EV

>>>
[1] 0.07776 0.25920 0.34560 0.23040 0.07680 0.01024
  • 2출루할 확률이 34.56%로 가장 높다.
barplot(EV)

2출루할 확률을 주위로 점차 낮아지는 확률분포 모양일수록 합리적인 확률분포다. / 0출루 or 5출루는 힘들다는 것을 야구팬은 알고 있기 때문

이항분포에서 분포의 모양을 정하는 원인

  • 선수의 출루율(성공확률)과 시행횟수가 확률분포 모양을 정함
  • 출루율에 따라 확률분포모양이 달라지는 모습

728x90

'Minding's Reading > 메이저리그 야구 통계학 2e' 카테고리의 다른 글

[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3)  (0) 2023.05.10
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1)  (0) 2023.05.01
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2)  (0) 2023.04.25
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1)  (0) 2023.04.24
[메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝  (2) 2023.04.20
'Minding's Reading/메이저리그 야구 통계학 2e' 카테고리의 다른 글
  • [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3)
  • [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1)
  • [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2)
  • [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1)
Minding
Minding
  • Minding
    Today's Minding
    Minding
  • 전체
    오늘
    어제
    • 울고넘는 딥러닝 (278)
      • Minding's Baseball (57)
        • MLB Statcast (29)
        • 머신러닝으로 홈런왕 예측하기 (3)
        • 야구칼럼 (12)
        • 야구 규칙, 용어 (1)
        • 2022-23 질롱 코리아 (8)
        • 류현진 등판경기 (4)
      • Minding's Programming (185)
        • 프로그래머스 코딩테스트 (21)
        • Knowledge (44)
        • Numpy & Pandas (6)
        • Excel (3)
        • Git (1)
        • Pygame (11)
        • CV (3)
        • Tensorflow tutorial (4)
        • Kaggle and Dacon (4)
        • 에러 코드 (8)
        • FastAPI (8)
        • Airflow (29)
        • Crawling (6)
        • Django (14)
        • AWS (18)
        • Spark (5)
      • Minding's Reading (30)
        • 머신러닝 딥러닝에 필요한 기초 수학 with 파이.. (2)
        • 칼만필터는 어렵지 않아 (11)
        • 밑바닥부터 시작하는 딥러닝 (6)
        • 메이저리그 야구 통계학 2e (8)
        • 논문읽기 (2)
        • 빅데이터를 지탱하는 기술 (1)
      • Minding's Life (5)
        • 주식 (4)
        • 각종 소식 (1)
  • 블로그 메뉴

    • 홈
    • Baseball
    • Programming
    • Reading
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    AWS
    딥러닝
    게임개발
    Python
    Airflow
    메이저리그
    데이터분석
    데이터 엔지니어
    칼만필터
    질롱코리아
    야구
    프로그래머스
    django
    KBO
    넘파이
    머신러닝
    FastAPI
    KalmanFilter
    mlb stats api
    칼만필터는어렵지않아python
    코딩테스트
    MLB
    에어플로우
    칼만필터는어렵지않아파이썬
    칼만필터는어렵지않아
    pygame
    파이썬게임개발
    파이썬
    django python
    파이게임
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Minding
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)
상단으로

티스토리툴바