본문 바로가기

반응형

데이터분석

카카오톡 메시지로 긍/부정어 감정 분석해보기 (재미로 보는 야구팬들의 감정 분석) 내겐 '야구'라는 주제로 뭉친 친구들의 단체 카톡방이 있다. 여느 야구팬들이 보통 그렇듯이, 야구 경기를 보면서 희노애락의 이야기들을 나누곤 한다. 16년차 한화팬인 나는 올 시즌에도 기대에 못 미치는 경기력을 보며 한탄을 하던 도중 문득 궁금해졌다. '이겨도 져도 욕하는 야구라지만 성적이 좀 괜찮다면 욕을 좀 덜하지 않았을까?' 하는 생각을 가지고 가볍게 재미를 가지고 카카오톡 메시지를 통해 긍/부정어 분석을 진행해보았다. 필요한 라이브러리import pandas as pdimport torchfrom transformers import BertTokenizer, BertForSequenceClassificationfrom transformers import TextClassificationPipeli.. 더보기
[빅데이터분석기사] 예시 문제 풀어보기 https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/1 구름EDU - 모두를 위한 맞춤형 IT교육 구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/ edu.goorm.io 1번문제 import pandas as pd df = pd.read_csv('data/mtcars.csv', index_col=0) # 사용자 코딩 from sklearn.preprocessing import minmax_scale df['qsec'] = minmax_scale(df['qsec']) rec.. 더보기
[메이저리그 야구 통계학 2/e] 4장 - 상관관계는 인과관계가 아니다(2) 확률과 우도 확률 (Probability) 동전 던지기의 경우, 나올 수 있는 상황이 앞면과 뒷면 두 가지다. 두 가지 중 한 가지 상황을 성공이라고 가정할 때, 시도가 많으면 많을수록 50%에 가까워지게 됨 야구 또한 타율, 출루율 등을 통해 타자의 안타 여부 / 출루 여부의 확률을 예측함 조이 보토의 출루율 예시 조이 보토는 타출갭(타율 - 출루율 간 차이)이 뛰어난 선수로 알려져 있다. 그의 출루율이 .460이라면, 5타석 중 2번 출루할 확률을 얼마나 되는가? 출루의 경우 성공과 실패 두 가지 결괏값을 가지는 이항분포다. 이항분포가 여러 번 시행된 결괏값 집합이라면, 베르누이 분포의 공식으로 성공/실패 가능성 제시 가능하다. 여기서 p는 특정사건이 발생할 가능성이다. 즉, p(x)는 x라는 사건이.. 더보기
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(2) 데이터에서 룰을 찾다 : 연관성 분석 분석할 데이터에서 패턴과 연관성을 잘 파악하면 마케팅 등 전략에 활용할 여지가 많음 연관성 분석 연관성 분석은 변수 내 개별 관측자료가 여타 관측자료와 어떻게 어울리는지 파악하는데 주력 ex) 이적시장에서 특정 팀 출신의 선수를 전략적으로 선호하는가? # 전처리 library(Lahman) a 2010&yearID {MIA} 0.00171969 1.0000000 [3] {NYA, PHI} => {PIT} 0.00171969 0.5000000 coverage lift count [1] 0.018916595 10.744642 25 [2] 0.001719690 18.910569 4 [3] 0.003439381 8.551471 4 lhs Length:3 Length:3 Cl.. 더보기
[메이저리그 야구 통계학 2/e] 3장 - 선수의 능력은 어떻게 측정할 것인가?(1) 과학적 측정 야구는 팀의 조화가 중요한 다른 스포츠(축구, 농구)보다 선수 개인 능력이 승리에 미치는 영향이 월등히 큼. 야구 뿐 아니라 다양한 분야에서 평가 및 가치를 측정하는 직업들이 존재 전문성의 기준은 무엇인가? 전문가 집단의 진입장벽 (ex. 시험 등) 경험이 쌓이며 대상을 볼 줄 아는 안목, 통찰력, 노하우 등 전문적 지식이 과학적 지식은 아님 경험과 노하우가 쌓이면서 모든 사건에 균등한 관심보다는 특정 사건에 집중하는 선택적 관심을 가지기 때문 전통적인 스카우터가 홈런 등 기본 툴에 집중하고 출루율, 볼넷 등을 가볍게 보는게 그 예시 선택적 관심의 벽을 넘어 데이터 입수 / 분석 / 해석 능력이 있다면, 비전문가도 의사결정이 가능 측정의 신뢰도 누가 평가했느냐보다는, 모든 요인을 고려하는 균.. 더보기
[메이저리그 야구 통계학 2/e] 2장 - 메이저리그 데이터 마이닝 마이닝의 개념 데이터의 발굴에서부터 해석으로 이어지는 일련의 과정을 뜻함. - 분석 목적에 맞는 데이터를 추출(준비) - 분석가능한 형태의 데이터로 변형 - 변형된 데이터를 이용해 상관관계 / 유사집단 / 변화 패턴 파악 등 분석 및 해석 간단한 데이터 직접 만들어보기 변수에 5개의 타율 데이터가 순서대로 나열되도록 코딩 # a : 변수이름 # [,1] [,2] [1,] "C" "26" [2,] "F" "22" [3,] "A" "31" [4,] "D" "30" [5,] "B" "38" [6,] "E" "29" # 칼럼 이름 변경 colnames(d) > player avg age 1 A 0.28 31 2 B 0.257 38 3 C 0.312 26 4 D 0.197 30 5 E 0.288 29 6 F 0... 더보기
[메이저리그 야구 통계학 2/e] 책 읽기 전 변수 개념 정리 중고서점 알라딘에서 프로그래밍 관련 책을 둘러보던 중, 흥미로운 주제의 책을 하나 발견했다. [메이저리그 야구 통계학]이라는 제목의 책이었다. 사실 베이스볼서번트, 팬그래프 등의 사이트가 너무 잘돼있어 필자 또한 그 데이터로 분석을 해보았을 만큼 특별한 주제는 아니다. 구글링을 좀만 해봐도 메이저리그 데이터셋으로 온갖 분석을 한 글들이 나온다. 하지만 이 책이 내게 특별한 점은 바로 야구라는 도메인을 가지고 R언어를 가르쳐준다는 점이다. 안 그래도 빅데이터분석기사 필기 시험이후로 실기를 위해 R언어를 배울까 말까 생각만 가지고 있던 내게 필요한 책이었다. 이왕이면 흥미있는 주제로 공부를 하는게 좋지 않겠는가. 인터넷을 찾아보니 머신러닝 파트가 추가된 2판이 나와있어 이 책을 구매했다. 이 책의 초반부는 .. 더보기
[KBO] 과연 스트라이크 존은 정말 확대되었을까? 올 시즌 개막 전에는 꽤나 뜨거운 논쟁 거리가 하나 있었다. 이 주제의 논의는 이미 여러 번 있었지만, 유독 올해는 뜨거웠다. 인기가 점점 식어가고 있는 프로야구에 희망이 되길 바랬던 2020 도쿄올림픽. 그러나 금메달은 고사하고 동메달 획득에도 실패하면서, '이것'이 국제대회 성적을 내지 못하는 주원인으로 지적받기도 했다. 바로 '스트라이크 존 확대'이다. KBO가 공식적으로 발표한 스트라이크 존 확대(정상화)는 스프링캠프를 진행중이던 선수들에게 여러 반응을 이끌어냈다. '넓어진 스트라이크 존을 잘 활용해 보겠다.', '너무 갑작스러운 변화다.' 등등... 어찌 됐든 KBO는 심판위원장을 통해 스트라이크 존 설명회를 열고, 심판들이 모여 훈련하고 스프링캠프에도 투입되는 등 진지한 태도를 보여줬기에 여느.. 더보기

728x90