표본분포 – 개요 및 표본 평균

이번 포스트는 표본 분포의 개요와 표본평균 (Sampling Distributions Introduction and Sampling Distribution related to the normal Distribution) 을 다룬다. 내용은『Mathematical Statistics with Applications, Sixth Edition, DUXBURY , Dennis D. Wackerly / William Mendenhall / Richard L. Scheaffer』 를 참고했다. 이 책의 정의 7.1정리 7.1 을 다룬다.

 

1. 표본 분포 개요

어떤 분포를 가진 모집단으로부터 독립적인 Y_1, Y_2,...,Y_n 표본을 얻었다고 하자. 표본으로부터 얻어진 랜덤 변수의 함수들은 미지의 모집단 파라미터에 대한 추정이나 결정을 내리기 위해 사용된다. 예를 들어, 모집단 평균 μ 를 추정하고자하면, 만약 우리가 n 개의 관측 y_1,y_2, ..., y_n 의 랜덤 표본들을 얻었다면, 표본평균으로 μ를 추정하는 것이 합리적이라고 할 수 있다.

\bar{y}=\dfrac{1}{n}\displaystyle\sum^{n}_{i=1}y_i

 

추정의 적합성 (goodness of estimate) 는 랜덤 변수 Y_1, Y_2,...,Y_n 의 행태에 의존하고, 이 행태는 \bar{Y}=(1/n) \sum^{n}_{i=1} Y_i

랜덤 변수 \bar{Y} 는 (오직) 랜덤 변수  Y_1, Y_2,...,Y_n 과 (상수인) 표본 크기 n 의 함수이다. 랜덤 변수  \bar{Y} 는 따라서 통계량의 예이다.

정의 7.1

한 통계량은 표본의 관측된 랜덤 변수와 알려진 상수에 대한 함수이다.

통계량은 알려지지 않은 모집한 파라미터에 대한 (추정과 결정) 추론을 하는데 사용된다. 통계량은 표본으로부터 관측된 랜덤 변수의 함수이기 때문에, 그 자체로도 하나의 랜덤 변수이다. 결과적으로, 랜덤변수의 함수의 방식을 사용하여(향후 포스팅), 우리는 통계량의 ‘표본분포’ 라고 부르는 그것의 확률분포를 유도할 수 있다. 실용적인 측면에서보면, 표본 분포는 반복적인 표본 추출을 통해서 관측된 통계량의 가능한 값들의 상대적 도수 분포 (relative frequency histogram) 의 이론적인 모형을 제공한다.

통계량의 표본 분포의 이론적인 형태는 표본 내에 관측된 랜덤 변수의 분포에 의존한다. 정규 분포의 파라미터를 추론하기 위해서 이번 포스트와 다음 포스트에서 관련 통계량의 표본 분포를 유도해 볼 것이다.

 

2. 정규분포와 관련된 표본 분포 (Sampling Distributions Related to the Normal Distribution)

우리는 앞서서 현실세계에서 관측된 많은 현상들이 충분히 정규 확률 분포로 모델링할 수 있는 상대적인 빈도 분포를 갖는 다는 것을 알고 있다. 따라서 많은 응용 문제들에서 랜덤 표본 Y_1, Y_2,...,Y_n 으로부터 관측된 랜덤 변수들이 독립적이고, 일반적인 정규 밀도 함수를 갖는다. 통계량 \bar{Y}=(1/n)(Y_1+Y_2+\cdots + Y_n) 은 실제로 정규 분포를 갖는다. 향후 논의에서 이 결과는 종종 사용될 것이기 때문에, 우리는 다음 정리에서 공식적으로 다룬다.

정리 7.1

Y_1, Y_2,...,Y_n 를 평균 μ와 분산 σ2 을 갖는 정규 분포로부터 얻어진 크기 n인 랜덤 표본이라고 하자. 그러면,

\bar{Y}=\dfrac{1}{n}\displaystyle\sum^{n}_{i=1}Y_i

 

는 평균 \mu_{\bar{Y}}=\mu 이고 분산 \sigma^2_{\bar{Y}}=\sigma^2/n 를 갖는 정규 분포를 따른다.

 

증명.

Y_1, Y_2,...,Y_n 가  평균 μ와 분산 σ2 을 갖는 정규 분포로부터 얻어진 크기 n인 랜덤 표본이기 때문에,  Y_i E(Y_i)=\mu 이고 V(Y_i) =\sigma^2 ( i=1,2,...,n )인, 독립적이고 정규 분포의 변수이다. 나아가,

\bar{Y}=\dfrac{1}{n}\displaystyle\sum^{n}_{i=1}Y_i=\dfrac{1}{n}(Y_1)+\dfrac{1}{n}(Y_2)+\cdots+\dfrac{1}{n}(Y_n)

=a_1Y_1+a_2Y_2+\cdots+a_nY_n (where a_i = 1/n,~~~~i=1,2,...,n )

 

따라서, \bar{Y} 는  Y_1, Y_2,...,Y_n 의 선형 결합이고, 정리 6.3(생략) 에 따라서  \bar{Y} 는 정규분포를 따르고,

E(\bar{Y})=E \Big[\dfrac{1}{n}(Y_1)+\cdots+\dfrac{1}{n}(Y_n) \Big] = \dfrac{1}{n}(\mu)+\cdots+\dfrac{1}{n}(\mu)=\mu

 

V(\bar{Y})=V \Big[\dfrac{1}{n}(Y_1)+\cdots+\dfrac{1}{n}(Y_n) \Big] = \dfrac{1}{n^2}(\sigma^2)+\cdots+\dfrac{1}{n^2}(\sigma^2)

 

=\dfrac{1}{n^2}(n\sigma^2)=\dfrac{\sigma^2}{n}

 

즉, \bar{Y} 의 표본 분포는 평균 \mu_{\bar{Y}}=\mu 와 분산 \sigma^2_{\bar{Y}}=\sigma^2/n 를 갖는 정규분포이다.

독립 변수 Y_1, Y_2,...,Y_n 의 분산은 σ2 이고 랜덤 변수 \bar{Y} 의 표본 분포의 분산은 \sigma^2/n 이다. 향후 논의에서 이들 분산에 대해서 언급할 경우가 있을 것이다. 변수 Y_1, Y_2,...,Y_n 분산  \sigma^2 표기가 유지될 것이다. \sigma^2_{\bar{Y}} 는 랜덤 변수 \bar{Y} 의 표본 분포의 분산을 지칭한다.

정리 7.1 아래에서 \bar{Y} 는 평균 \mu_{\bar{Y}} 와 분산 \sigma^2_{\bar{Y}}=\sigma^2/n 를 갖는 정규 분포를 띈다. 그리고

Z = \dfrac{\bar{Y}-\mu_{\bar{Y}}}{\sigma_{\bar{Y}}}=\dfrac{\bar{Y}-\mu}{\sigma/\sqrt{n}}=\sqrt{n}\Big(\dfrac{\bar{y}-\mu}{\sigma}\Big)

 

는 표준 정규분포를 갖는다. 정리 7.1 에 대한 사용 예제를 아래에서 다룬다.

예제1.

병을 만드는 기계가 병당 평균 μ 온스로 채운다고 한다. 기계당 채우는 정도는 표준편차 σ = 1.0 온스를 갖는 정규 분포를 갖고 있다. n =9 인 채워진 병이 추출되었고 측정되었다. 실제 평균 μ와 0.3 온스 내로 표본 평균이 들어올 확률을 구하라.

풀이.

Y_1, Y_2,...,Y_9 를 측정된 온스 값이라면, Y_i 는 평균 μ 와 분산 σ2 ( i=1,2,...,9 ) 을 갖는 정규분포를 따른다. 따라서 정리 7.1을 통해서 \bar{Y} 는 평균 \mu_{\bar{Y}} 와 분산 \sigma^2_{\bar{Y}}=\sigma^2/n=1/9 를 갖는 정규 표본 분포를 갖는다. 우리가 찾고자 하는 것은,

P(|\bar{Y}-\mu| \leq 0.3)=P[-0.3 \leq (\bar{Y}-\mu) \leq 0.3)

 

= P \bigg(-\dfrac{0.3}{\sigma/\sqrt{n}} \leq \dfrac{\bar{Y}-\mu}{\sigma/\sqrt{n}} \leq \dfrac{0.3}{\sigma/\sqrt{n}} \bigg)

 

 \dfrac{\bar{Y}-\mu}{\sigma_{\bar{Y}}} = \dfrac{\bar{Y}-\mu}{\sigma/\sqrt{n}} 는 표존 정규 분포를 갖기 때문에, 다음과 같다.

P(|\bar{Y}-\mu| \leq 0.3)=P\bigg(-\dfrac{0.3}{1/\sqrt{9}} \leq Z \leq \dfrac{0.3}{1/\sqrt{9}}\bigg)

 

=P(-0.9 \leq Z \leq 0.9)=1-2P(Z>0/9)=1-2(0.1841)=0.6318

 

따라서 0.6318의 확률로 표본 평균은 모 평균과 0.3 온스 내에 위치한다.

Leave a Comment