상자에서 공 뽑기 예제가 독립사건을 설명하는데 적절하지 않은 이유

이번 포스트에서 일부 오표기 및 비복원추출 확률 계산이 잘못된 부분이 있어 정정하였습니다. 미리 발견하지 못한점 양해 부탁드리며, 향후에도 잘못된 부분이 발견되면 제게 알려주시면 감사하겠습니다.

이전 포스트에서 조건부확률과 독립시행을 상자에서 빨간공을 뽑은 예제로 설명 하였다.

아래 그림과 같이 상자에 7개의 검은공과 3개의 빨간 공이 있다고 가정할 때, 두 번의 시행으로 공을 뽑는 경우를 생각해 보면, 뽑은 공을 다시 상자에 넣는 경우는 복원추출, 다시 넣지 않는 경우는 비복원 추출이 된다. 그 때의 확률은 아래 그림에서 계산된 것과 같다.

1. 복원추출 : 뽑은 공을 다시 상자에 넣지 않는 경우
2. 비복원추출 : 뽑은 공을 다시 상자에 넣는 경우

다음과 같이 상자에 검은공 7개와 빨간공 3개가 들어있다.

연속하여 두 개의 빨간공을 뽑을 확률을 구하면,

1. 복원추출 :  \dfrac{3}{10}\times \dfrac{3}{10}=\dfrac{9}{100}

2. 비 복원 추출 :  \dfrac{3}{10}\times \dfrac{2}{9}=\dfrac{1}{15}

 

여기서 사건의 독립을 얘기하기 위해서는 먼저 사건(Event) 를 정의해야 한다.

어떤 걸 사건 A, B 로 볼 것인가?
만약 빨간공이 나오는 사건 = A, 검은공이 나오는 사건= B 라고 한다면, 첫번째 시행에서 빨간공, 두번재 시행에서 빨간공이 나오는 것은 어떻게 표현할 것인가? 빨간공이 나오는 사건이 B 이므로 두 번다 빨간공이 나오는 확률은

P(B) \times P(B|B) 와 같이 표현될 것이다. 어라 좀 이상한데?

또 한 가지 생각해 볼 수 있는 것은 첫번째로 빨간공이 나오는 것을 A, 두번째에 빨간공이 나오는 사건을 B 라고 하면,

P(A) \times P(B|A) 같기 때문에 이제 뭔가 제대로 된 느낌이 든다.

하지만 여기서 매우 혼동 스러운 부분이 있다. 바로, P(B) 값은 뭐지? 하는 부분이다.  복원추출일 경우 3/10 * 3/10 으로 표현되는 두 번째 P(B|A) 이 3/10 이다. 반면에 비복원추출의 경우는 3/10 * 2/9 으로 표현되는 두 번째 P(B|A) 이 2/9 이다. “두번째에 빨간공이 나오는” 사건이란 A의 결과에 영향을 받는 것일까 아닐까? P(B) 는 무엇일까?

혼란을 피하기 위해서는 표본공간을 다시 정의할 필요가 있다. 즉, 두번의 시행을 모두 표현하는 것이다. {(검, 빨), (검, 검), (빨, 검), (빨, 빨)} 처럼 말이다.

따라서 복원추출의 경우는

첫번째 시행에 빨간공이 나오는 사건 A 는 {(빨, 검), (빨, 빨)} 이 되고,
P(A) = 3/10*7/10 + 3/10*3/10 = 3/10 이다.

두번째 시행에 빨간공이 나오는 사건 B 는 {(검, 빨), (빨, 빨)} 이 되고,
P(B) = 7/10*3/10 + 3/10*3/10 = 3/10 이다.

 

반면 비복원추출의 경우는

첫번째 시행에 빨간공이 나오는 사건 A 는 {(빨, 검), (빨, 빨)} 이 되고,
P(A) = 3/10*7/9 + 3/10*2/9 = 3/10 이다.

두번째 시행에 빨간공이 나오는 사건 B 는 {(검, 빨), (빨, 빨)} 이 되고,
P(B) = 7/10*3/9 + 3/10*2/9 = 3/10 이다.

 

사건의 독립을 증명하려면 P(B|A) = P(B) 임을 증명하면 되는데,

이는 P(B|A) = \dfrac {P(B \cap A)}{P(A)} 인데,

P(B \cap A) 는 첫 번째 시행에서 빨간공이 나오고 두번째 시행에서도 빨간공이 나오는 사건이므로

  1. 복원추출 : {(빨, 빨)} = 3/10*3/10
  2. 비복원추출 : {(빨, 빨)} = 3/10*2/9

따라서

1. 복원추출 : P(B|A) = \dfrac{P(B \cap A)}{P(A)}= \dfrac{\dfrac{9}{100}}{\dfrac{3}{10}} = \dfrac{3}{10} = P(B)

 

2. 비복원추출 :  P(B|A) = \dfrac{P(B \cap A)}{P(A)}= \dfrac{\dfrac{6}{90}}{\dfrac{3}{10}} =\dfrac{2}{9} P(B)

 

즉, 복원추출에서는 사건의 독립이 성립하지만, 비복원추출에서는 성립하지 않는 것을 확인할 수 있다. 이 부분을 설명하지 않고 P(A) = P(B) = 3/10 이고, 복원 추출의 경우 P(B|A) = P(B) 로 등호를 놓게되면 상당히 혼란스럽게 된다. 따라서 이 상자에서 공을 뽑은 예제를 독립사건을 설명하는데는 적합하지 않아 보인다.

 

한 가지 이미 눈치 챈 분들도 있겠지만 위에 놀라운 사실을 방금 발견했을텐데, 복원추출과 비 복원 추출모두 “두번째에 빨간공이 나오는 사건 B”의 확률이 3/10 으로 같다는데 있다. (첫번째에 빨간공이 나오는 사건 A의 확률도 동일하다)

이 문제는 나도 구글링하다가 다른 강의노트에서 발견했는데 풀이하자면 다음과 같다.

비복원추출 문제

공이 총 N개 있는 상자에서 m 개 빨간공이 있다고 했을 때 비복원추출한다고 하자. 사건A 를 “첫번째 공이 빨간공일 사건”, 사건B를 “두번째 공이 빨간공일 사건” 이라고 가정한다. 어떤 사람들은 P(B) 가 P(A) 와 당연히 같을 거라고 생각한다. 하지만 다른 이들은 과연 이게 같을까 하는 의구심을 갖게 마련이다. Total Probability 정리(*) 에 의해서

P(A) = \dfrac {m}{N} \,\,\,\,\, P(A^C) = \dfrac {N-m}{N}

 

P(B|A) = \dfrac {m-1}{N-1} \,\,\,\,\, P(B|A^C) = \dfrac {m}{N-1}

 

따라서,

P(B)= P(A) \times P(B|A) + P(A^C) \times P(B|A^C)

 

=\dfrac {m}{N} \times \dfrac {m-1}{N-1}+ \dfrac {N-m}{N} \times \dfrac {m}{N-1}

 

= \dfrac {m}{N(N-1)} [m-1+N-m]

 

= \dfrac {m(N-1)}{N(N-1)}= \dfrac {m}{N}

 

(*) P(A)=P(A \cap B)+P(A \cap B^C)

 

비복원 추출의 경우에도 P(B) = m/N 임을 보일 수 있다니 놀랍지 않은가?