메이저리그 야구 통계학

메이저리그 야구 통계학, 에이콘 출판사
김재민 저

[목차]
1장. 변수를 알면 분석모델을 디자인할 수 있다.
2장. 메이저리그 데이터 마이닝
3장. 선수의 능력은 어떻게 측정할 것인가?
4장. 상관관계는 인과관계가 아니다.
5장. 비교와 구분
6장. 모델링

 

처음 이 책을 발견한 건 강남 교보문고 점에서 R 관련 책들을 보다가 “The Art of R Programming” 책 옆에서
우연히 보게 되었다. 일단 메이저리그 야구 데이터를 R 패키지를 활용해서 다루는 번역서일거라고 지레 짐작하고 펼쳐들었는데 실상은 미국에서 강의하시던 과목의 내용을 엮어서 낸 한국 분의 책이었다.

이어 책장을 계속 넘기다가 우도(likelihood) 의 발생과정을 설명한 부분에서 넋을 놓고 읽게 되었다. 출루율과 이항분포확률의 발생, 반대의 우도가 발생하게 되는 과정을 제대로 이해하게 된 계기가 되었다고 해야 할까? 암튼, 그 부분을 읽은 뒤 꼭 다시 읽어야지 하는 생각을 품고 서점을 나왔다. 최근에 우연히 동네 도서관에 들렀다가 이 책이 서가에 꽂혀 있어서 아주 반가운 마음으로 집으로 들고오게 되었다.

R 의 접근 방식을 소개해 주는 부분에선 처음으로 R notebook 와 markdown 을 쓰는 법을 알게 되었다. 그 전까지 계속 Console 에 치다가 어떻게 보관하고 또 Publish 하는지를 몰랐는데 R notebook 을 써보니 파이썬 Jupyter Notebook 을 처음 쓸 때와 유사한 느낌이었다. 아기자기하고 사용자 친화적인 프로그래밍을 막 할 수 있을거 같은 기분이 들었다.

아마 이 책의 가장 하이라이트 부분을 꼽으라고 한다면 단연 4장. “상관관계는 인과관계가 아니다” 라고 할 것이다. 이전 글 에 쓴 출루율로 확률과 우도, 최대우도검증법을 소개하는 부분도 흥미로우며, 선형회귀분석의 4가지 가정 (좋은 모델이 되기 위한) 에서 선형성, 등분산성, 독립성, 정규성등을 자세히 소개한다. 간과하기 쉬운 표준오차의 개념을 자세히 설명해 준 부분도 짚어 넘어 가고 싶다. 메이저리그 구단 프런트에서 지구우승을 하기 위한 최소승수를 기준으로 WAR 가 높은 선수를 비싼 돈을 들여오는 대신 팀 타율의 증가로 대체할 수 있는 방법이 있다고 소개한 부분도 흥미로운 사실들이었다.

새롭게 알게된 개념중에는 긍정오류 (false positive error) 가  영어를 모국어로 사용하는 사람들에게 일상생활에서 종종 사용되는 생활용어이며, 특히 통계결과를 비꼴 때 많이 사용된다는 것이었다. 이 밖에 회귀분석의 결과(fit)을 plot 하면 여러 플롯을 구할 수 있다는 것이 아주 간단하면서도 몰랐던 부분이다.

실습한 R 예제들은 전부 R markdown 으로 Github 에 올리려고 노력했으나, 이제 다시 책을 반납해야 한다. 모든 예제의 완성은 다음 기회를 노려야 할듯 하다. 이 책을 소장하는 것도 추천할 만하다.

Leave a Comment