[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1)

2023. 5. 1. 20:29·Minding's Reading/메이저리그 야구 통계학 2e
728x90
반응형

인과관계 > 상관관계 > 우연

과학적으로 인정받은 인과관계는 같은 조건 하 미래에도 반복될 수 있는 예측능력이 있음

 

인과관계의 필수조건

상관관계의 한계점

  • 상관관계 분석 자체는 연구방법 / 주제가 맞다면 문제는 없지만, 이를 인과관계로 해석한다면 확대 해석 문제 발생
  • 상관관계는 변수 간 강한 연관관계는 알 수 있지만, 그 연관성이 정말 신뢰할 만한 지 검증할 방법이 없음
  • 또한 상관관계는 어떤 원인으로 특정 결과가 발생하는지 '예측'하는 욕구를 충족시켜주지 못함

상관관계가 인과관계가 되기 위해 필요한 것

  1. 반복적 패턴이 발생해야 함
  2. 시간적 순서가 확보돼야 함
  3. 실제 논리적으로 설명이 가능해야 함

예시 : 미국 대선 결과와 월드시리즈 우승팀과의 관계

연도 챔피언이 속한 리그 대통령이 된 후보의 정당
2000 AL (뉴욕 양키스) 공화당 (조지 부시)
2004 AL (보스턴 레드삭스) 공화당 (조지 부시)
2008 NL (필라델피아 필리스) 민주당 (버락 오바마)
2012 NL (샌프란시스코 자이언츠) 민주당 (버락 오바마)
  • 첫 번째 조건 만족 : 2000년 이후 부터 4번 연속 반복적 패턴 충족
  • 두 번째 조건 만족 : 월드시리즈 최종전은 11월 2일 즈음, 미 대선은 11월 8일에 치러져 원인과 결과 시간 순서 확보
  • 세 번째 조건 불만족 : 제3의 변수가 두 사건을 연결할 수 있는 논리가 없음

 

모델링과 추정

  • 추정 : 변수(측정자료) 간의 관계를 규명하는 것
  • 모델링 : 변수 간 관계를 추정하기 위한 테스트 / 일반화 작업
  • '예측'과 '추정'은 다르다
    • 변수 간 '관계를 규명'하는 것이 추정이고, 추정된 방정식에 변수를 대입해 결과값을 찾아내는 게 예측

 

오류는 모델링의 꽃

  • 편차, 오차, 잔차를 포함하는 오류는 분석에 있어 꽃이다 = 오류가 적을 때 예측의 정확성이 높아지기 때문

오류의 구분 : 일종오류와 이종오류

  • 일종오류 (긍정오류) : 사실이 아니지만 그 값이 사실이라고 하는 경우
    • ex) 암에 걸리지 않은 환자(False)에게 암 판정(True)을 내리는 경우
  • 이종오류 (부정오류) : 사실이지만 그 값이 사실이 아니라고 하는 경우 (좀 더 위험할 수 있음)
    • ex) 지뢰가 있는데(True) 지뢰가 없다고(False) 하는 경우

진실이 존재하는 신의 영역

  • 모집단의 규모가 커지수록 모집단의 평균을 알아내는 것은 불가능
  • 변수 간 관계에 눈에 보이지 않는 영향을 미친 잠재 변수가 있을 수 있음 (=신의 영역)
    • ex) 몸무게와 장타율 관계 : 장타율에 몸무게 말고도 영향을 미친 잠재 변수가 있을 수 있음

Y라는 장타율은 X인 몸무게로 예측하며, 둘의 관계는 b다. e는 오류항으로 패턴이 없는 비체계적 오류가 담겨져 있는 부분이다.

 

예측모델과 데이터가 있는 현실계

  • 전체 데이터를 모은다는 것은 현실적으로 불가능한 경우가 대부분, 가능하다고 해도 많은 비용과 시간 소요
  • 데이터가 일정 수준 모이면, 추가 데이터가 통계검증에 큰 차이를 내지 않음
  • 따라서 모집단에서 편향 없는 표본추출을 통해 표본 데이터를 모으고, 기울기와 절편 오류항을 추정하는 방식 선택

책 내에서는 체계적 오류(λ)와 비체계적 오류(u)를 포함한다. e는 표준오차

  • Yi (또는 Y hat)는 예측모델에서 나온 예측값
  • 편차 : 각 변수값이 평균으로부터 떨어져 있는 정도, 집합의 편차는 항상 0
  • 표준편차(RMSE) : 편차제곱의 합에 다시 제곱근을 한 것, 표준편차(오류)가 작을수록 예측이 정확할 확률이 높다.

실습

  • 2011년부터 2016년까지 시즌 150경기를 초과 출장한 선수를 대상으로 체중 - 장타율 회귀분석
library(Lahman)
a<-subset(Batting, yearID>2010 & yearID<2017 & G>150)
b<-subset(People, sel=c('playerID', 'weight'))
c<-merge(a,b,by='playerID')
c$slg<-with(c,((H-X2B-X3B-HR)+2*X2B+3*X3B+4*HR)/AB)
with(c,plot(weight,slg,type='n'))
abline(lm(slg~weight, c))
fit<-lm(slg~weight, c)
fit_res<-resid(fit)
plot(c$weight, fit_res)
abline(0,0)
qqnorm(fit_res)
qqline(fit_res)

정규분포 확인용 Q-Q 플롯

  • 잔차 : 추정모델에 독립 변수를 넣고 구한 예측값과 실제 관측값의 차
    • 잔찻값이 크면 클수록 추정된 예측선의 예측능력이 떨어짐
  • RSS : 예측선으로 설명되지 못하는 범위의 합
  • TSS : 전체 좌승의 합
  • ESS : 설명되는 부분의 합
  • R^2 : 설명력

728x90

'Minding's Reading > 메이저리그 야구 통계학 2e' 카테고리의 다른 글

[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3)  (0) 2023.05.10
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)  (2) 2023.05.08
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2)  (0) 2023.04.25
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1)  (0) 2023.04.24
[메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝  (2) 2023.04.20
'Minding's Reading/메이저리그 야구 통계학 2e' 카테고리의 다른 글
  • [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3)
  • [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2)
  • [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2)
  • [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1)
Minding
Minding
  • Minding
    Today's Minding
    Minding
  • 전체
    오늘
    어제
    • 울고넘는 딥러닝 (278)
      • Minding's Baseball (57)
        • MLB Statcast (29)
        • 머신러닝으로 홈런왕 예측하기 (3)
        • 야구칼럼 (12)
        • 야구 규칙, 용어 (1)
        • 2022-23 질롱 코리아 (8)
        • 류현진 등판경기 (4)
      • Minding's Programming (185)
        • 프로그래머스 코딩테스트 (21)
        • Knowledge (44)
        • Numpy & Pandas (6)
        • Excel (3)
        • Git (1)
        • Pygame (11)
        • CV (3)
        • Tensorflow tutorial (4)
        • Kaggle and Dacon (4)
        • 에러 코드 (8)
        • FastAPI (8)
        • Airflow (29)
        • Crawling (6)
        • Django (14)
        • AWS (18)
        • Spark (5)
      • Minding's Reading (30)
        • 머신러닝 딥러닝에 필요한 기초 수학 with 파이.. (2)
        • 칼만필터는 어렵지 않아 (11)
        • 밑바닥부터 시작하는 딥러닝 (6)
        • 메이저리그 야구 통계학 2e (8)
        • 논문읽기 (2)
        • 빅데이터를 지탱하는 기술 (1)
      • Minding's Life (5)
        • 주식 (4)
        • 각종 소식 (1)
  • 블로그 메뉴

    • 홈
    • Baseball
    • Programming
    • Reading
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    pygame
    MLB
    FastAPI
    Airflow
    칼만필터
    mlb stats api
    메이저리그
    django
    KBO
    질롱코리아
    칼만필터는어렵지않아python
    머신러닝
    AWS
    파이게임
    KalmanFilter
    django python
    데이터 엔지니어
    넘파이
    Python
    게임개발
    코딩테스트
    딥러닝
    프로그래머스
    파이썬
    칼만필터는어렵지않아파이썬
    파이썬게임개발
    데이터분석
    야구
    칼만필터는어렵지않아
    에어플로우
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Minding
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1)
상단으로

티스토리툴바