추정 (Estimation) - 일반적인 불편(unbiased) 점 추정량

이번 포스트는 추정(Estimation) 의 세 번째 포스트로 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators) 에 대해서 알아보도록 하겠다. 포스트의 내용은 『Mathematical Statistics with Applications, Sixth Edition, DUXBURY , Dennis D. Wackerly / William Mendenhall / Richard L. Scheaffer』 를 참고했다.

3. 일반적인 불편 점 추정량(Some Common Unbiased Point Estimators)

적률 함수 (moment generating function) 등을 통해서 formal 하게 추정량을 도출 할 수 있으나, 여기서는 직관적인 방법을 통해서 얻을 수 있는 점 추정량을 확인해 본다. 다음 표에서는 표본으로 부터 관측된 랜덤 변수들로 표현되는 추정량들을 정리했다.

Target Parameter $\theta$	Sample Size(s)	Point Estimator $\hat{\theta}$	$E(\hat{\theta})$	Standard Error $\sigma_{\hat{\theta}}$
$\mu$	$n$	$\bar{Y}$	$\mu$	$\dfrac{\sigma}{\sqrt{n}}$
$p$	$n$	$\hat{p} =\dfrac{Y}{n}$	$p$	$\sqrt{\dfrac{pq}{n}}$
$\mu_1 - \mu_2$	$n_1$ and $n_2$	$\bar{Y_1}-\bar{Y_2}$	$\mu_1 - \mu_2$	$\sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}}$
$p_1 - p_2$	$n_1$ and $n_2$	$\hat{p_1}-\hat{p_2}$	$p_1 - p_2$	$\sqrt{\dfrac{p_1q_1}{n_1}+\dfrac{p_2q_2}{n_2}}$

표준편차는 분산의 제곱근이며 $\sigma^2_{\hat{\theta}}$ 를 추정량 $\hat{\theta}$ 에 대한 분산으로 표현한다. 추정량 $\hat{\theta}$ 의 표준편차는 $\sigma_{\hat{\theta}}=\sqrt{\sigma^2_{\hat{\theta}}}$ 가 되고, 추정량 $\hat{\theta}$ 의 ‘표준오차 (standard error)‘ 라고 한다.

위 표의 추정량을 도출하기 위해서 random sample 간에 독립을 가정한다.

E(\bar{Y_1}-\bar{Y_2})=E(\bar{Y_1})- E(\bar{Y_2})=\mu_1 -\mu_2

V(\bar{Y_1}-\bar{Y_2})=V(\bar{Y_1})+V(\bar{Y_2}=\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma^2_2}{n_2}

한 가지 주목할 부분은 표본 분산을 정의할 때 n 으로 나눠야 할것 같으나, n-1 로 나누는 점이다. n 으로 나눌 경우 biased 추정량이 되고 n-1 로 나눌 때 unbiased 추정량이 된다는 점에 주의해야 한다. 아래 풀이를 통해 이유를 확인 할 수 있다.

예제.

$Y_1,Y_2,\cdots,Y_n$ 를 $E(Y_i)=\mu$ 이고 $V(Y_i)=\sigma^2$ 인 랜덤 표본이라고 하자.

S'^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2

가 $\sigma^2$ 에 대한 biased 추정량이고,

S^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2

가 $\sigma^2$ 에 대한 unbiased 추정량임을 증명하라.

다음을 유도할 수 있으므로,

\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2=\displaystyle\sum_{i=1}^nY^2_i-\dfrac{1}{n}(\displaystyle\sum_{i=1}^nY_i)^2=\displaystyle\sum_{i=1}^nY^2_i-n{\bar{Y}^2}

따라서,

E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=E(\displaystyle\sum_{i=1}^nY^2_i)-nE({\bar{Y}}^2)=\displaystyle\sum_{i=1}^nE(Y^2_i)-nE({\bar{Y}}^2)

$E(Y^2_i)$ 는 $i=1,2,\cdots,n$ 에 대해서 동일하기 때문에, 이걸 이용하여 랜덤 변수의 분산이 다음과 같을 때,

V(Y)=E(Y^2)-\mu^2

아래를 얻는다.

E(Y^2_i)=V(Y_i)+(E(Y_i))^2=\sigma^2+\mu^2, E({\bar{Y}}^2)=V(\bar{Y})+(E(\bar{Y}))^2=\sigma^2/n+\mu^2

이 결과를 위의 식에 대입하면,

E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\displaystyle\sum_{i=1}^n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)

= n(\sigma^2+\mu^2)-n(\dfrac{\sigma^2}{n}+\mu^2)

=n\sigma^2-\sigma^2=(n-1)\sigma^2

따라서

E(S'^2)=\dfrac{1}{n}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n}(n-1)\sigma^2 = (\dfrac{n-1}{n})\sigma^2

$S'^2$ 는 biased estimator ( $E(S'^2) \not= \sigma^2$ )

E(S^2)=\dfrac{1}{n-1}E[\displaystyle\sum_{i=1}^n(Y_i-\bar{Y})^2]=\dfrac{1}{n-1}(n-1)\sigma^2 =\sigma^2

$S^2$ 는 unbiased estimator 임을 증명할 수 있다.

표의 4가지 추정량에 대해서 두 가지 중요한 사실이 있다. 첫번째로는 기대값(expected value) 과 표준 오차 (standard error) 는 모집단의 확률 분포에 상관없이 유효하다는 점이다. 두번째는 4가지 추정량은 표본수가 증가함에 따라 근사적으로 정규분포를 따른다는 점이다. central limit theorem 에 의하여 $\bar{Y}$ 나 $\hat{p}$ 를 규명할 수 있다. 유사하게 $(\bar{Y_1} - \bar{Y_2})$ 나 $(\hat{p_1} - \hat{p_2})$ 에 대해서도 확인 할 수 있다. 대부분의 확률분포에 대해서, 표본평균 $\bar{Y}$ 의 경우, n = 30 또는 그 이상일 경우 정규성을 보인다. 하지만 이항분포 같은 경우에는 p값에 따라 표본 수가 결정된다. p 값이 0.5인 경우는 대칭적이지만 0 이나 1.0 일 수록 비대칭적이기 때문이다.

You Might Also Like

추정 (Estimation) – 다 표본 신뢰구간

추정 (Estimation) – 표본 크기 선택

추정 (Estimation) – 점 추정량의 적합성 산출