Python Machine Learning By Example

Python Machine Learning By Example, 에이콘 출판사 요우시 리우 지음, 남궁영환 옮김 [목차] 1장. 파이썬과 머신 러닝 시작하기 2장. 텍스트 분석 알고리즘을 이용한 20 뉴스그룹 데이터세트 분석 3장. 나이브 베이즈를 이용한 스팸 메일 탐지 4장. SVM을 이용한 뉴스 토픽 분류 5장. 트리 기반 알고리즘을 이용한 클릭스루 예측 6장. 로지스틱 회귀를 이용한 클릭스루 예측 7장. 회귀 …

Read morePython Machine Learning By Example

나이브 베이즈 분류기 응용 (Naive Bayes Classifier Application)

이전 포스트 에서 Naive Bayes Classifier 의 알고리즘에 대해서 알아보았다. 여기서는 Spam Mail Filter 와 NewsGroup 분류에 사용된 Naive Bayes 에 대해서 알아보자. 인터넷에도 굉장히 많은 예제들을 쉽게 확인 할 수 있다. 나는 “Python Machine Learning By Example” 이라는 책에서 다룬 스팸(Spam) 메일 필터링 예제를 설명하려고 한다. 2. Naive Bayes Classifier Applications 1) Spam mail filtering Spam 분류해야 …

Read more나이브 베이즈 분류기 응용 (Naive Bayes Classifier Application)

메이저리그 야구 통계학

메이저리그 야구 통계학, 에이콘 출판사 김재민 저 [목차] 1장. 변수를 알면 분석모델을 디자인할 수 있다. 2장. 메이저리그 데이터 마이닝 3장. 선수의 능력은 어떻게 측정할 것인가? 4장. 상관관계는 인과관계가 아니다. 5장. 비교와 구분 6장. 모델링   처음 이 책을 발견한 건 강남 교보문고 점에서 R 관련 책들을 보다가 “The Art of R Programming” 책 옆에서 우연히 …

Read more메이저리그 야구 통계학

출루율로 배우는 확률과 우도, 최대우도추정법

앞서 가능도(likelihood) 대한 글에 이어서 “메이저리그 야구 통계학” 에서 소개하는 재미난 예제를 살펴볼까 한다. 이 글의 일부는 “메이저리그 야구 통계학” 책의 4장 ‘상관관계는 인과관계가 아니다’ 절을 직접 인용하고 있음을 미리 밝혀둔다. 이 포스트에 사용된 예제 소스는 Github 에서 확인 할 수 있다. 1. 출루율이 정해진 상황에서의 다섯번 타석에 들어섰을 때 두 번 출루할 확률 조이 …

Read more출루율로 배우는 확률과 우도, 최대우도추정법

Likelihood (가능도)

likelihood ? 우도라고 말하면 당최 무슨 말인지 감이 잡히지 않는, 잡힐 듯 잡히지 않는 개념이었다. 나는 오히려 가능도라고 부르는 것이 더 나아 보인다. 가능도의 개념을 잡기 위해서 참고한 부분을 먼저 소개한다. 우선, sw4r 님의 블로그에 방대한 내용의 수리통계학 관련 포스트를 참고했다. 또, 위키피디아의 ‘Likelihood function‘에 관한 정의를 참고했다. 여기 나온 정의 부분과 내용 전개 부분에서 많은 도움을 얻었다. …

Read moreLikelihood (가능도)

조건부 독립 ( Conditional Independence )

조건부 독립에 대해 생각해 보자. 많은 머신러닝 책들에 보면 베이즈 정리와 함께 조건부 독립에 대해서 장황하게 설명한 내용들이 많은데, 아래 그림 만큼 쉽게 와 닿는 예제도 없는 듯하다. 온라인에 공개된 KAIST 문일철 교수님의 머신러닝 강좌(3-2) 의 강의노트에서 발췌한 그림을 보기로 하자. 명령을 내리는 상사와 부하직원 2명이 있다고 가정해 보자. 만약 OfficerA 가 OfficerB 가 앞으로 가는 것을관찰했다고 치면 OfficerA …

Read more조건부 독립 ( Conditional Independence )

결합확률과 체인룰

1. 결합 확률 함수(Joint Probability Function) 결합확률을 통계적으로 이산랜덤변수와 연속랜덤변수로 나누어 구분할 수 있다. 이 포스트에서는 이산랜덤변수에 의한 결합 확률 분포를 살펴보겠다. (연속형의 경우 본격적으로 다룰 기회가 있을 거라고 믿는다.^^;) 가 이산 랜덤 변수(Discrete Random Variables) 이면, 의 결합확률 분포는 다음과 같다.   함수 를 결합 확률 함수 (joint probability function) 이라고 칭한다.   이 때, …

Read more결합확률과 체인룰

베이즈 정리 ( Bayes Theorem )

1. 베이즈 정리 (Bayes Theorem) 우리는 2 개의 조건부 확률을 사용하여 베이즈 정리를 쉽게 유도할 수 있다.     는 조건부 확률이다.  B가 사실(true) 로 주어졌을 때, A가 발생할 가능도(likelihood) 로 정의할 수 있다. 역시 조건부 확률이다. A가 사실(true) 로 주어졌을 때, B가 발생할 가능도(likelihood) 로 정의할 수 있다. 와  는 서로 독립적으로 관측되는 marginal …

Read more베이즈 정리 ( Bayes Theorem )

조건부 확률과 독립시행

조건부 확률은 아래와 같이 정의 된다. 이것이 의미하는 바는 아래 그림 처럼 확률 공간이 먼저 A 로 정의된다는 것이다. 좀 더 부연하자면, 의 조건인 A 를 먼저 가정함으로써 전체 확률 공간 S 를 사용하는 것이 아니라, A 로 확률 공간을 좁히고 A 안에 있는 B 영역 의 확률을 구하게 되는 것이다. 조건부 독립의 의미를 이해하고, 독립적인 …

Read more조건부 확률과 독립시행

나이브 베이즈 분류기 알고리즘 (Naive Bayes Classifier Algorithm)

이 글에서는 나이브 베이즈 분류기 (Naive Bayes Classifier) 에 대해서 다루고자 한다. 크게 2가지 영역으로 나누어서 얘기해 볼 수 있겠다. 이 포스트에서는 알고리즘을 다루고, 다음번 포스트에서 Spam Mail 및 NewsGroup 을 활용한 응용 부분을 확인해 보자. Naive Bayes Classifier Algorithm Naive Bayes Classifier Applications 1. Naive Bayes Classifier Algorithm 나이브 베이즈 분류기는 머신러닝(Machine Learning) 알고리즘 중에서 …

Read more나이브 베이즈 분류기 알고리즘 (Naive Bayes Classifier Algorithm)