추정 (Estimation) – 일반적인 불편(unbiased) 점 추정량

This entry is part 3 of 9 in the series 추정

 

 

 

 

 

이번 포스트는 추정(Estimation) 의 세 번째 포스트로 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators) 에 대해서 알아보도록 하겠다. 포스트의 내용은 『Mathematical Statistics with Applications, Sixth Edition, DUXBURY , Dennis D. Wackerly / William Mendenhall / Richard L. Scheaffer』 를 참고했다.

 

3. 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators)

적률 함수 (moment generating function) 등을 통해서 formal 하게 추정량을 도출 할 수 있으나, 여기서는 직관적인 방법을 통해서 얻을 수 있는 점 추정량을 확인해 본다. 다음 표에서는 표본으로 부터 관측된 랜덤 변수들로 표현되는 추정량들을 정리했다.

Target
Parameter
\theta
Sample
Size(s)
Point
Estimator
\hat{\theta}
E(\hat{\theta}) Standard
Error
\sigma_{\hat{\theta}}
\mu n \bar{Y} \mu \dfrac{\sigma}{\sqrt{n}}
p n \hat{p} =\dfrac{Y}{n} p \sqrt{\dfrac{pq}{n}}
\mu_1 - \mu_2 n_1 and n_2 \bar{Y_1}-\bar{Y_2} \mu_1 - \mu_2 \sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}}
p_1 - p_2 n_1 and n_2 \hat{p_1}-\hat{p_2} p_1 - p_2 \sqrt{\dfrac{p_1q_1}{n_1}+\dfrac{p_2q_2}{n_2}}

표준편차는 분산의 제곱근이며 \sigma^2_{\hat{\theta}} 를 추정량  \hat{\theta} 에 대한 분산으로 표현한다. 추정량  \hat{\theta} 의 표준편차는 \sigma_{\hat{\theta}}=\sqrt{\sigma^2_{\hat{\theta}}} 가 되고, 추정량  \hat{\theta} 의 ‘표준오차 (standard error)‘ 라고 한다.

위 표의 추정량을 도출하기 위해서 random sample 간에 독립을 가정한다.

E(\bar{Y_1}-\bar{Y_2})=E(\bar{Y_1})- E(\bar{Y_2})=\mu_1 -\mu_2

 

V(\bar{Y_1}-\bar{Y_2})=V(\bar{Y_1})+V(\bar{Y_2}=\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}

 

한 가지 주목할 부분은 표본 분산을 정의할 때 n 으로 나눠야 할것 같으나, n-1 로 나누는 점이다. n 으로 나눌 경우 biased 추정량이 되고 n-1 로 나눌 때 unbiased 추정량이 된다는 점에 주의해야 한다. 아래 풀이를 통해 이유를 확인 할 수 있다.

예제.

Y_1,Y_2,\cdots,Y_n E(Y_i)=\mu 이고 V(Y_i)=\sigma^2 인 랜덤 표본이라고 하자.

S'^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2

\sigma^2 에 대한 biased 추정량이고,

S^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2

\sigma^2 에 대한 unbiased 추정량임을 증명하라.

다음을 유도할 수 있으므로,

\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2=\displaystyle\sum_{i=1}^nY^2_i-\dfrac{1}{n}(\displaystyle\sum_{i=1}^nY_i)^2=\displaystyle\sum_{i=1}^nY^2_i-n{\bar{Y}^2}

 

따라서,

E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=E(\displaystyle\sum_{i=1}^nY^2_i)-nE({\bar{Y}}^2)=\displaystyle\sum_{i=1}^nE(Y^2_i)-nE({\bar{Y}}^2)

 

E(Y^2_i) i=1,2,\cdots,n 에 대해서 동일하기 때문에, 이걸 이용하여 랜덤 변수의 분산이 다음과 같을 때,

V(Y)=E(Y^2)-\mu^2

아래를 얻는다.

 

E(Y^2_i)=V(Y_i)+(E(Y_i))^2=\sigma^2+\mu^2, E({\bar{Y}}^2)=V(\bar{Y})+(E(\bar{Y}))^2=\sigma^2/n+\mu^2

 

이 결과를 위의 식에 대입하면,

E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\displaystyle\sum_{i=1}^n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)

 

= n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)

 

=n\sigma^2-\sigma^2=(n-1)\sigma^2

 

따라서

E(S'^2)=\dfrac{1}{n}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n}(n-1)\sigma^2 = (\dfrac{n-1}{n})\sigma^2

 

S'^2 는 biased estimator ( E(S'^2) \not= \sigma^2 )

 

E(S^2)=\dfrac{1}{n-1}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n-1}(n-1)\sigma^2 =\sigma^2

 

S^2 는 unbiased estimator 임을 증명할 수 있다.

 

표의 4가지 추정량에 대해서 두 가지 중요한 사실이 있다. 첫번째로는 기대값(expected value) 과 표준 오차 (standard error) 는 모집단의 확률 분포에 상관없이 유효하다는 점이다. 두번째는 4가지 추정량은 표본수가 증가함에 따라 근사적으로 정규분포를 따른다는 점이다. central limit theorem 에 의하여 \bar{Y} \hat{p} 를 규명할 수 있다. 유사하게 (\bar{Y_1} - \bar{Y_2}) (\hat{p_1} - \hat{p_2}) 에 대해서도 확인 할 수 있다. 대부분의 확률분포에 대해서, 표본평균 \bar{Y} 의 경우, n = 30 또는 그 이상일 경우 정규성을 보인다. 하지만 이항분포 같은 경우에는 p값에 따라 표본 수가 결정된다. p 값이 0.5인 경우는 대칭적이지만 0 이나 1.0 일 수록 비대칭적이기 때문이다.

 

 

 

Series Navigation<< 추정 (Estimation) – 점 추정량의 편향과 MSE (Mean Square Error)추정 (Estimation) – 점 추정량의 적합성 산출 >>

Leave a Comment