1. 베이즈 정리 (Bayes Theorem)
우리는 2 개의 조건부 확률을 사용하여 베이즈 정리를 쉽게 유도할 수 있다.
- P(B|A) = \dfrac {P(B \cap A)}{P(A)}
- P(A|B) = \dfrac {P(A \cap B)}{P(B)}
\therefore P(A|B) = \dfrac {P(B|A)P(A)}{P(B)}
- P(A|B) 는 조건부 확률이다. B가 사실(true) 로 주어졌을 때, A가 발생할 가능도(likelihood) 로 정의할 수 있다.
- P(B|A) 역시 조건부 확률이다. A가 사실(true) 로 주어졌을 때, B가 발생할 가능도(likelihood) 로 정의할 수 있다.
- P(A) 와 P(B) 는 서로 독립적으로 관측되는 marginal probability (주변확률) 이다.
reference : Wikipedia
2. 베이즈 정리 (Bayes Theorem)을 활용한 예제
한 가지 예를 들어 설명해 보자. “Python Machine Learning By Example“을 참고했다.
어느 공장의 A, B, C 세 대의 기계가 전체 전구 생산량의 35%, 20%, 45% 씩을 만들어 내고 있다. 각 기계에서 생산된 전구의 불량률은
A가 1.5%, B가 1%, C가 2% 다. 이 공장에서 생산된 전구에서 불량품이 발견됐다고 하자 (이 사건을 D로 표현한다.) 각각의 기계 A, B, C
가 이 전구를 생산했을 확률을 계산하면 얼마씩일까?
베이즈 정리에 따라 차근차근 계산하면 된다.
P(A|D)= \dfrac {P(D|A)P(A)}{P(D)} = \dfrac {P(D|A)P(A)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}=\dfrac {0.015*0.35}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.323
P(B|D)= \dfrac {P(D|B)P(B)}{P(D)} = \dfrac {P(D|B)P(B)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}
=\dfrac {0.01*0.2}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.123
P(C|D)= \dfrac {P(D|C)P(C)}{P(D)} = \dfrac {P(D|C)P(C)}{P(D|A)P(A) + P(D|B)P(B) + P(D|C)P(C)}
=\dfrac {0.02*0.45}{0.015*0.35 + 0.01*0.2 + 0.02*0.45} = 0.554
사실은, P(D) 를 계산하지 않아도 되는데
P(A|D):P(B|D):P(C|D) = 0.015*0.35:0.01*0.2:0.02*0.45 = 21:8:36그리고 P(A|D) + P(B|D) + P(C|D) = 1 인 사실을 이용하면,
P(A|D) =\dfrac {21}{21+8+36}= 0.323,P(B|D)=\dfrac {8}{21+8+36} =0.123
로 구할 수 있다. P(D) 가 상수(constant) term 으로 불리는 이유다.
3. 베이즈 정리에 대한 두 가지 해석
- 베이지안의 해석
– 베이지안 해석에서는 확률은 ‘믿음의 정도’ 를 측정한다.
– 따라서 베이즈 정리는 사전 조건으로서 ‘믿음의 정도 (degree of belief)’ 와 증거(evidence) 발생 후 를 연결시킨다.
– 조건으로서 A 와 증거 (evidence) B ,
. P(A) , 사전확률 : A 의 초기 ‘믿음의 정도 (degree of belief)’를 나타낸다.
. P(A|B), 사후확률 : 증거(evidence) B 에 의해 설명되는 ‘믿음의 정도 (degree of belief)’ 이다.
. \dfrac {P(B|A)}{P(B)} 의 몫은 A 에 의해 설명되는 B 의 영역을 나타낸다.
– 엄밀하게 정의한 베이지안 추정은 다음과 같다. [reference : Wikipedia]
- P(H|E) = \dfrac {P(E|H) \cdot P(H)}{P(E)}
- H 는 데이터에 의해 영향 받을 수 있는 모든 가설을 의미한다. 종종 대립가설이 존재하며, 어떤 가설이 더 높은 가능성을 갖고 있는지 밝히는 작업이 있다.
- P(H) 는 사전확률로, 가설 H 가 증거(관측 데이터) E 없이 추정되는 확률이다.
- P(H|E), 는 사후확률로, 증거 E 가 주어졌을 때, 즉 증거가 관측되고 난 다음의 가설 H 의 확률이다. 이것이 우리가 알고자 하는 증거가 제시되었을 때의 확률이다.
- P(E|H) 는 가설 H 가 주어졌을 때 (특정 가설이 참 일 때), 증거 E 가 관찰될 확률이며 가능도 (likelihood) 라고 불린다. H 를 고정하고 E 에 대한 함수로 표현하면, 주어진 가설에 대한 증거가 발견될 (성립할) 가능성을 의미한다. 사후확률(posterior probability)이 가설 H 에 대한 함수인 반면에, 가능도 함수(likelihood function) 은 증거 E 에 대한 함수이다.
- P(E) 는 종종 marginal likelihood 또는 ‘모델에 대한 증거’ 라고 불린다. 이 요소는 모든 가설에 대해서 동일하게 간주되므로 ( 다른 요소들과는 다르게 가설 H 가 나타나지 않기 때문에), 대립 가설들 (다른 가설들) 의 상대적인 비교시에는 사라지는 항목이다.
- 빈도주의자의 해석
. 빈도주의자의 해석에서는 확률은 발생할 빈도(비율)을 측정하는 것이다.
. 베이즈정리는 아래와 같이 트리 다이어그램으로 잘 표현되는데, 두 다이어그램은 A 와 B 에 대한 동일한 분할을 나타낸다. 다만 역으로 확률을 구해서 반대되는 순서로 나타날 뿐이다. 베이즈 정리는 이 두 가지 다른 분할 방식을 연결해 주는 역할을 한다.
reference : Wikipedia
It’s an remarkable post designed for all the web visitors; they will take advantage from it I am sure.