본문 바로가기

Minding's Reading/메이저리그 야구 통계학 2e

[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)

728x90
반응형

확률과 우도

확률 (Probability)

  • 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다.
    • 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨
    • 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함

조이 보토의 출루율 예시

  • 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다.
  • 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가?
  • 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다.
  • 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다.

베르누이 분포 공식 / 출처 : 나부랭이의 수학블로그

  • 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이 발생할 가능성인 것.
  • x는 사건이 발생한다고 가정했을 때 1, 그렇지 않으면 0을 대입한다.
  • 각 타석마다 베르누이 분포가 발생한다.

베르누이 분포로 구성된 이항확률분포를 구하는 두 가지 방법

1. 수학적으로 구하는 방법

  • 이항확률밀도함수에 출루율과 시행횟수를 대입해서 구하는 방법
  • nCr * p^r * (1-p)^(n-r)
    • n은 총 타석수, r은 몇 번 출루했을 때를 가정하는 지, p는 성공확률이다.
    • .460의 출루율을 가진 선수가 5타석 중 2번 출루할 확률은 33.32%

2. 시뮬레이션 접근법

  • 시뮬레이션을 돌릴 횟수, 타석수, 출루율을 지정해줘야 함
a <- rbinom(10000, 5, 0.46) # 10000번의 시뮬레이션, 5타석, .460의 출루율
table(a)/10000

>>>
a
     0      1      2      3      4      5 
0.0416 0.1905 0.3406 0.2839 0.1236 0.0198
  • 시뮬레이션 결과 2번 출루할 확률이 가장 높으며, 그 확률은 34% 정도다.
  • 이항확률밀도함수의 결과와 비슷한 값을 가짐
  • 시뮬레이션 횟수가 높을수록 변동성이 낮아지며 안정적인 결과를 얻을 수 있다.

 

출루의 조건 : 최대우도추정법

  • 우도의 개념을 이용해 모수를 역추적하는 분석기술은 상당한 관심을 받고 있음
  • 특정 사건의 발생확률을 최대화할 수 있는 조건들을 데이터를 통해 역추적 & 모수 특징 파악
  • 사건 발생 예측하고 미연에 방지하도록 도움을 주는 모델 개발 가능
  • 이처럼 특정 사건의 확률 최대화할 수 있는 파라미터를 찾기 위해 이항확률밀도함수를 역으로 이용하는 방법이 최대우도추정법
    • ex) 로지스틱 회귀분석

조이 보토의 출루율이 알려져 있지 않다면?

  • 만약 5번의 타석 중 2번 출루할 수 있는 확률을 극대화하는데 필요한 출루율을 4할이라고 역추적했다면
  • 4할이라는 수치는 5C2의 확률을 극대화하는 우도(likelihood)가 된다.

확률과 우도가 다른 점

  • 확률은 한 사건의 조건인 출루율을 알고 있어서 5타석 중 2출루가 발생할 빈도에 주목 가능
  • 그러나 출루율을 모르는 경우엔 5타석 중 2출루가 발생할 가장 높은 조건을 찾아야 하며, 그 조건이 우도

확률(위)과 우도(밑)의 다른 점을 설명하는 그림, 우도는 확률을 극대화하는 한 점을 찾는다.

확률 계산과의 비교

  • .460의 조이 보토가 5타석 중 2출루할 이론적 확률값은 33.32%, 시뮬레이션 결과는 34%였다.
  • 거꾸로 5번의 타석 중 2출루할 가능성을 가장 높이는 출루율 모수를 찾아야 한다.
  • 이항확률밀도함수에 전체 시행수인 5(타석)와 성공횟수인 2(출루)를 대입한다.
  • P(x) = 5C2 * OBP^2 * (1-OBP)^3
  • 위 공식에 로그함수를 적용하면 로그의 특성을 활용해 확률의 최대점을 알 수 있다.
    • 로그는 급격히 증가하다가 최댓값에 도달 시 더 이상 증가하지 않는 특성을 가지고 있기 때문

그래프의 최대점은 함수를 미분했을 때 0이 되는 시점, 즉 더이상 증가하지 못하는 위치다.

  • 그래프의 최대점은 0.4 즉, 출루율 4할이다.

시나리오 확률분포 확인

  • 5타석의 뜻은 다섯 번의 시행을 거쳤으며, 0출루 ~ 5출루의 경우까지 6가지 상황마다 다른 확률을 가지게 됨
OBP <- 0.4 # 출루율 4할
base <- 0:5 # 0 ~ 5까지 6가지 케이스
P <- OBP^base*(1-OBP)^(5-base) # 확률계산
case<-choose(5, base)
EV <- P*case
EV

>>>
[1] 0.07776 0.25920 0.34560 0.23040 0.07680 0.01024
  • 2출루할 확률이 34.56%로 가장 높다.
barplot(EV)

2출루할 확률을 주위로 점차 낮아지는 확률분포 모양일수록 합리적인 확률분포다. / 0출루 or 5출루는 힘들다는 것을 야구팬은 알고 있기 때문

이항분포에서 분포의 모양을 정하는 원인

  • 선수의 출루율(성공확률)과 시행횟수가 확률분포 모양을 정함
  • 출루율에 따라 확률분포모양이 달라지는 모습

728x90