본문 바로가기

Minding's Reading/메이저리그 야구 통계학 2e

[메이저리그 야구 통계학 2/e] 책 읽기 전 변수 개념 정리

728x90
반응형

중고서점 알라딘에서 프로그래밍 관련 책을 둘러보던 중, 흥미로운 주제의 책을 하나 발견했다. [메이저리그 야구 통계학]이라는 제목의 책이었다. 사실 베이스볼서번트, 팬그래프 등의 사이트가 너무 잘돼있어 필자 또한 그 데이터로 분석을 해보았을 만큼 특별한 주제는 아니다. 구글링을 좀만 해봐도 메이저리그 데이터셋으로 온갖 분석을 한 글들이 나온다. 하지만 이 책이 내게 특별한 점은 바로 야구라는 도메인을 가지고 R언어를 가르쳐준다는 점이다. 안 그래도 빅데이터분석기사 필기 시험이후로 실기를 위해 R언어를 배울까 말까 생각만 가지고 있던 내게 필요한 책이었다. 이왕이면 흥미있는 주제로 공부를 하는게 좋지 않겠는가. 인터넷을 찾아보니 머신러닝 파트가 추가된 2판이 나와있어 이 책을 구매했다.

 

이 책의 초반부는 분석모델을 구축하기 위해 필요한 개념과 R을 설치하는 과정을 소개하고 있다. 이 글에서는 책 초반부에 설명되어 있는 변수를 정리하고자 한다.

 

변수

변수는 말 그대로 변하는 값, 계속해서 변할 수 있는 값을 의미한다. 분석모델에서의 변수는 데이터(변할 수 있는 값)가 저장되어 있는 공간이라고 볼 수 있다. 각 변수들의 우열을 가릴 수 있는 데이터들이 모인 집합이 변수다.

변수는 데이터 분석의 주인공이며, 변수의 형태에 따라 사용해야 할 데이터 분석방법도 달라진다고 한다.

 

연속 변수

보통 소수점 이하로 표시할 수 있는 데이터의 집합이다. 타율, 출루율과 같이 0.333, 0.25로 표시되는 실수의 형태다. 카운트되는 형태가 아닌 측정되는 형태다. 몸무게와 키를 측정한다고 생각하면 편하다. 연속 변수는 다른 변수와의 차이를 명확하게 보여준다. 분석 모델에 가장 많이 쓰이는 방법론 중의 하나인 회귀분석에서 연속 변수가 종속 변수일 때 가장 좋은 결과를 나타낸다.

 

이산 변수

홈런과 타점처럼 셀 수 있고, 양의 정수와 0으로 표시되는 비연속 데이터의 집합이다. 연속 변수에 가까운 형태지만 1, 2, 3 처럼 카운트되는 형태이며 연속적이지 않다. 이산 변수는 데이터의 수에 따라 회귀분석 대신 푸아송과 같은 알고리즘이 필요할 수도 있기 때문에 연속 변수와 구분이 필요하다. 하지만 데이터가 30개 이상일 경우 중심극한정리에 의해 정규분포 특성을 가진다고 가정할 수 있기 때문에 회귀분석에 사용되기도 한다.

 

명목 변수

소속리그, 부상유무, 포지션 등 두 가지 또는 그 이상의 범주로 표시되는 데이터의 집합이다. 범주형(Categorical)변수라고 불리기도 한다. 데이터셋에서는 문자형으로 표시되기도 하지만, 분석을 위해서는 원-핫 인코딩등을 통해 숫자 형태로 바꿔주어야 한다.(ex. 부상유무에 따라 0, 1로 표시) 범주형 데이터는 통계분석의 결과를 의미 있고 현실감 있게 해석하는데 효과적이다. 예를 들어 포지션 별 타율 / 리그 별 홈런이 관중 수에 미치는 영향 등을 이 변수를 통해 구분할 수 있다.

 

서열 변수

흔한 형태는 아니지만, 데이터 별 서열이 정해진 변수를 의미한다. 팬들에게 설문조사를 통해 선호도를 1~5로 표시해달라고 했을 경우가 이에 해당한다. 데이터의 숫자 자체가 의미하는 바는 없지만 데이터끼리 비교했을 때 의미가 생긴다.

 

변수의 형태를 이해하는 것이 중요한 이유

데이터 분석에 있어 변수의 형태를 이해하는 것이 중요한 이유는 형태 별로 분석 도구가 달라질 수 있기 때문이다. 예측하려는 변수의 형태가 연속 변수라면 회귀분석을, 이항 변수(명목 변수)라면 로지스틱 회귀분석을 통해 그 변수 또는 확률을 예측할 수 있다. 또한 데이터 엔지니어링을 할 때도 필요하다. 특정 변수로 특정 그룹을 나눈다거나 이상치(Outlier)를 제거할 때 변수 형태에 대한 이해가 필요하다.

728x90