Minding's Reading 썸네일형 리스트형 [빅데이터를 지탱하는 기술] 1장 빅데이터의 기초 지식 얼마 전 같은 분야를 공부하는 지인에게 책을 하나 추천받았다. 데이터 엔지니어링에 대한 기초에 대해 꼼꼼하게 잘 정리된 책이라는 후기와 함께. 책 제목은 '빅데이터를 지탱하는 기술'이다. 이 책은 많은 사람들이 이제는 익숙한 '데이터 분석'에 대해 거의 다루지 않는다. 책의 저자도 '데이터 처리를 어떻게 시스템화하는가에 대한 문제'를 다룬다고 설명한다. 데이터 분석에서 80%의 시간이 데이터를 준비하는데 소요된다고 한다. 실제 현장의 목소리를 들어보면, '데이터 과학자로 입사했더니 데이터의 전처리만 주로 하고 있다.'는 하소연이 많다. '데이터 준비'라는 엔지니어링 부분을 효율화하지 않으면 데이터 분석의 수고가 사라지는 일은 없다. 책에서 인용한 위 내용처럼 데이터 분석에 있어 가장 시간이 많이 걸리는.. 더보기 [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(3) 정규분포 : 얼마나 칠 것인가? 타율 / 출루율 / 장타율 등 연속형 변수들은 데이터 상호독립성을 띄고 있기 때문에 평균을 중심으로 정규분포를 구성 홈런 / 타점 등 이산형변수도 데이터가 충분하다면 중심극한정리에 기반해 정규분포의 모양을 띤다고 할 수 있음 중심극한정리? 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리 중심극한정리는 연속형 변수 및 이산 변수에 데이터 상호 독립성을 유지하면서, 회귀분석에 사용될 수 있는 이론적 근거를 제시 (데이터 양이 충분해야 함) 서로 독립적이지 않은 데이터의 예 : 선수마다 보유하고 있는 네트워크 library(sand) library(igraph) g 더보기 [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2) 확률과 우도 확률 (Probability) 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다. 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함 조이 보토의 출루율 예시 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다. 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가? 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다. 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다. 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이.. 더보기 [메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(1) 인과관계 > 상관관계 > 우연 과학적으로 인정받은 인과관계는 같은 조건 하 미래에도 반복될 수 있는 예측능력이 있음 인과관계의 필수조건 상관관계의 한계점 상관관계 분석 자체는 연구방법 / 주제가 맞다면 문제는 없지만, 이를 인과관계로 해석한다면 확대 해석 문제 발생 상관관계는 변수 간 강한 연관관계는 알 수 있지만, 그 연관성이 정말 신뢰할 만한 지 검증할 방법이 없음 또한 상관관계는 어떤 원인으로 특정 결과가 발생하는지 '예측'하는 욕구를 충족시켜주지 못함 상관관계가 인과관계가 되기 위해 필요한 것 반복적 패턴이 발생해야 함 시간적 순서가 확보돼야 함 실제 논리적으로 설명이 가능해야 함 예시 : 미국 대선 결과와 월드시리즈 우승팀과의 관계 연도 챔피언이 속한 리그 대통령이 된 후보의 정당 2000 AL.. 더보기 [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2) 데이터에서 룰을 찾다 : 연관성 분석 분석할 데이터에서 패턴과 연관성을 잘 파악하면 마케팅 등 전략에 활용할 여지가 많음 연관성 분석 연관성 분석은 변수 내 개별 관측자료가 여타 관측자료와 어떻게 어울리는지 파악하는데 주력 ex) 이적시장에서 특정 팀 출신의 선수를 전략적으로 선호하는가? # 전처리 library(Lahman) a 2010&yearID {MIA} 0.00171969 1.0000000 [3] {NYA, PHI} => {PIT} 0.00171969 0.5000000 coverage lift count [1] 0.018916595 10.744642 25 [2] 0.001719690 18.910569 4 [3] 0.003439381 8.551471 4 lhs Length:3 Length:3 Cl.. 더보기 [메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1) 과학적 측정 야구는 팀의 조화가 중요한 다른 스포츠(축구, 농구)보다 선수 개인 능력이 승리에 미치는 영향이 월등히 큼. 야구 뿐 아니라 다양한 분야에서 평가 및 가치를 측정하는 직업들이 존재 전문성의 기준은 무엇인가? 전문가 집단의 진입장벽 (ex. 시험 등) 경험이 쌓이며 대상을 볼 줄 아는 안목, 통찰력, 노하우 등 전문적 지식이 과학적 지식은 아님 경험과 노하우가 쌓이면서 모든 사건에 균등한 관심보다는 특정 사건에 집중하는 선택적 관심을 가지기 때문 전통적인 스카우터가 홈런 등 기본 툴에 집중하고 출루율, 볼넷 등을 가볍게 보는게 그 예시 선택적 관심의 벽을 넘어 데이터 입수 / 분석 / 해석 능력이 있다면, 비전문가도 의사결정이 가능 측정의 신뢰도 누가 평가했느냐보다는, 모든 요인을 고려하는 균.. 더보기 [메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝 마이닝의 개념 데이터의 발굴에서부터 해석으로 이어지는 일련의 과정을 뜻함. - 분석 목적에 맞는 데이터를 추출(준비) - 분석가능한 형태의 데이터로 변형 - 변형된 데이터를 이용해 상관관계 / 유사집단 / 변화 패턴 파악 등 분석 및 해석 간단한 데이터 직접 만들어보기 변수에 5개의 타율 데이터가 순서대로 나열되도록 코딩 # a : 변수이름 # [,1] [,2] [1,] "C" "26" [2,] "F" "22" [3,] "A" "31" [4,] "D" "30" [5,] "B" "38" [6,] "E" "29" # 칼럼 이름 변경 colnames(d) > player avg age 1 A 0.28 31 2 B 0.257 38 3 C 0.312 26 4 D 0.197 30 5 E 0.288 29 6 F 0... 더보기 [메이저리그 야구 통계학 2/e] R 설치, R Studio(Posit) 설치 오늘은 R 설치 및 R을 활용할 수 있는 R Studio(Posit으로 이름이 바뀌었다.) 설치법을 알아보았다. R 설치하기 1. 아래 링크에 접속한다. https://www.r-project.org/ R: The R Project for Statistical Computing www.r-project.org 2. 왼쪽 상단 부분에 Download 밑에 있는 CRAN을 선택한다. CRAN은 the Comprehensive R Archive Network의 약자로, R과 관련되어 업데이트된 자료 및패키지를 보관하고 있다. 3. 밑으로 스크롤해 Korea 밑에 있는 Network 중 하나를 선택하고, 운영체제에 맞게 설치한다. R을 처음 설치하는 거라면 'install R for the first time'.. 더보기 이전 1 2 3 4 다음