- 추정 (Estimation) – 개요 (Introduction)
- 추정 (Estimation) – 점 추정량의 편향과 MSE (Mean Square Error)
- 추정 (Estimation) – 일반적인 불편(unbiased) 점 추정량
- 추정 (Estimation) – 점 추정량의 적합성 산출
- 추정 (Estimation) – 신뢰구간 (Confidence Intervals)
- 추정 (Estimation) – 다 표본 신뢰구간
- 추정 (Estimation) – 표본 크기 선택
- 추정 (Estimation) – 소(小) 표본 신뢰구간 ; μ 와 μ1 – μ2
- 추정 (Estimation) – 모분산에 대한 신뢰구간
이번 포스트는 추정(Estimation) 의 세 번째 포스트로 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators) 에 대해서 알아보도록 하겠다. 포스트의 내용은 『Mathematical Statistics with Applications, Sixth Edition, DUXBURY , Dennis D. Wackerly / William Mendenhall / Richard L. Scheaffer』 를 참고했다.
3. 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators)
적률 함수 (moment generating function) 등을 통해서 formal 하게 추정량을 도출 할 수 있으나, 여기서는 직관적인 방법을 통해서 얻을 수 있는 점 추정량을 확인해 본다. 다음 표에서는 표본으로 부터 관측된 랜덤 변수들로 표현되는 추정량들을 정리했다.
Target Parameter \theta |
Sample Size(s) |
Point Estimator \hat{\theta} |
E(\hat{\theta}) | Standard Error \sigma_{\hat{\theta}} |
\mu | n | \bar{Y} | \mu | \dfrac{\sigma}{\sqrt{n}} |
p | n | \hat{p} =\dfrac{Y}{n} | p | \sqrt{\dfrac{pq}{n}} |
\mu_1 - \mu_2 | n_1 and n_2 | \bar{Y_1}-\bar{Y_2} | \mu_1 - \mu_2 | \sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}} |
p_1 - p_2 | n_1 and n_2 | \hat{p_1}-\hat{p_2} | p_1 - p_2 | \sqrt{\dfrac{p_1q_1}{n_1}+\dfrac{p_2q_2}{n_2}} |
표준편차는 분산의 제곱근이며 \sigma^2_{\hat{\theta}} 를 추정량 \hat{\theta} 에 대한 분산으로 표현한다. 추정량 \hat{\theta} 의 표준편차는 \sigma_{\hat{\theta}}=\sqrt{\sigma^2_{\hat{\theta}}} 가 되고, 추정량 \hat{\theta} 의 ‘표준오차 (standard error)‘ 라고 한다.
위 표의 추정량을 도출하기 위해서 random sample 간에 독립을 가정한다.
E(\bar{Y_1}-\bar{Y_2})=E(\bar{Y_1})- E(\bar{Y_2})=\mu_1 -\mu_2V(\bar{Y_1}-\bar{Y_2})=V(\bar{Y_1})+V(\bar{Y_2}=\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}
한 가지 주목할 부분은 표본 분산을 정의할 때 n 으로 나눠야 할것 같으나, n-1 로 나누는 점이다. n 으로 나눌 경우 biased 추정량이 되고 n-1 로 나눌 때 unbiased 추정량이 된다는 점에 주의해야 한다. 아래 풀이를 통해 이유를 확인 할 수 있다.
예제.
Y_1,Y_2,\cdots,Y_n 를 E(Y_i)=\mu 이고 V(Y_i)=\sigma^2 인 랜덤 표본이라고 하자. S'^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2가 \sigma^2 에 대한 biased 추정량이고, S^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2가 \sigma^2 에 대한 unbiased 추정량임을 증명하라. |
다음을 유도할 수 있으므로,
\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2=\displaystyle\sum_{i=1}^nY^2_i-\dfrac{1}{n}(\displaystyle\sum_{i=1}^nY_i)^2=\displaystyle\sum_{i=1}^nY^2_i-n{\bar{Y}^2}
따라서,
E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=E(\displaystyle\sum_{i=1}^nY^2_i)-nE({\bar{Y}}^2)=\displaystyle\sum_{i=1}^nE(Y^2_i)-nE({\bar{Y}}^2)
E(Y^2_i) 는 i=1,2,\cdots,n 에 대해서 동일하기 때문에, 이걸 이용하여 랜덤 변수의 분산이 다음과 같을 때,
V(Y)=E(Y^2)-\mu^2아래를 얻는다.
E(Y^2_i)=V(Y_i)+(E(Y_i))^2=\sigma^2+\mu^2, E({\bar{Y}}^2)=V(\bar{Y})+(E(\bar{Y}))^2=\sigma^2/n+\mu^2
이 결과를 위의 식에 대입하면,
E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\displaystyle\sum_{i=1}^n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)= n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)
=n\sigma^2-\sigma^2=(n-1)\sigma^2
따라서
E(S'^2)=\dfrac{1}{n}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n}(n-1)\sigma^2 = (\dfrac{n-1}{n})\sigma^2
S'^2 는 biased estimator ( E(S'^2) \not= \sigma^2 )
E(S^2)=\dfrac{1}{n-1}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n-1}(n-1)\sigma^2 =\sigma^2
S^2 는 unbiased estimator 임을 증명할 수 있다.
표의 4가지 추정량에 대해서 두 가지 중요한 사실이 있다. 첫번째로는 기대값(expected value) 과 표준 오차 (standard error) 는 모집단의 확률 분포에 상관없이 유효하다는 점이다. 두번째는 4가지 추정량은 표본수가 증가함에 따라 근사적으로 정규분포를 따른다는 점이다. central limit theorem 에 의하여 \bar{Y} 나 \hat{p} 를 규명할 수 있다. 유사하게 (\bar{Y_1} - \bar{Y_2}) 나 (\hat{p_1} - \hat{p_2}) 에 대해서도 확인 할 수 있다. 대부분의 확률분포에 대해서, 표본평균 \bar{Y} 의 경우, n = 30 또는 그 이상일 경우 정규성을 보인다. 하지만 이항분포 같은 경우에는 p값에 따라 표본 수가 결정된다. p 값이 0.5인 경우는 대칭적이지만 0 이나 1.0 일 수록 비대칭적이기 때문이다.