본문 바로가기
각종공부/통계

표본분산 공식에서 n 대신 n-1을 사용하는 이유

by 달슬 2020. 6. 13.
반응형

표본분산 공식

$s^2\, =\, \frac{\sum (x_{i}-\overline{x})^2}{n-1}$

에서 분모는 왜 n이 아니라 n-1일까?

 

이는 $\sum (x_{i}-\overline{x})^2$을 $n-1$로 나누어야 표본분산의 기대치가 모분산이 되기 때문이다.

(n-1을 사용해야 표본분산이 모분산의 불편추정치가 된다!)

 

모평균과 모분산이 $\mu,\: \sigma ^2$를 따르는 분포에서 관측한 $x_{1},\: \cdots ,\: x_{n}$에 대하여

 

표본평균은

$\overline{x}\: = \: \frac{\sum x_{i}}{n}$이고,

 

표본평균의 평균과 분산은

$E(\overline{x})\: = \: \mu ,\:\:  Var(\overline{x})\: =\: \frac{\sigma ^2}{n}$이다.

 

이 경우 표본분산 $s^2$을  $s^2\, =\, \frac{\sum (x_{i}-\overline{x})^2}{n-1}$이라 하는 이유는

$E[s^2]\, =\, E[\frac{\sum (x_{i}-\overline{x})^2}{n-1}]\: =\: \frac{1}{{n-1}}E[\sum (x_{i}-\overline{x})^2]$

               $=\: \frac{1}{{n-1}}E[\sum (x_{i}^2-2x_{i}\overline{x}+\overline{x}^{2})]$

               $=\: \frac{1}{{n-1}}E[\sum( x_{i}^2)-2\overline{x}\sum (x_{i})+n\overline{x}^{2})]$

               $=\: \frac{1}{{n-1}}E[\sum( x_{i}^2)-n\overline{x}^{2}]$

               $=\: \frac{1}{{n-1}}\left \{ \sum[ E(x_{i}^2)]-nE(\overline{x}^{2})\right \}$

               $=\: \frac{1}{{n-1}}\left \{ \sum[ \sigma ^2 +\mu ^2]-n (\frac{\sigma ^2}{n} +\mu ^2) \right \}$

                 $( \because \sigma ^2\: =\: E[X^{2}]-E[X] ^2\: =\: E[X^{2}]-\mu ^2 ,$

                         $Var(\overline{X})\: =\: \frac{\sigma ^2}{n}\: =\: E[\overline{X}^{2}]-E[\overline{X}] ^2\: =\: E[\overline{X}^{2}]-\mu ^2)$

               $=\: \frac{1}{{n-1}}\left \{ n\sigma ^2 +n\mu ^2-\sigma ^2 -n\mu ^2) \right \}$

               $=\: \frac{1}{{n-1}}(n\sigma ^2 -\sigma ^2 )\: =\: \frac{1}{{n-1}}(n-1)\sigma ^2$

               $=\: \sigma ^2$

 

즉,

이기 때문이다.

 

따라서, $s^2$이 미지의 모분산 $\sigma ^2$에 대해 좋은 추정치이기 때문에, 표본분산 공식에서는 n 대신 n-1을 사용한다.

반응형

댓글