样本方差和总体方差的关系推导 为什么样本均值的方差等于总体方差除以n?

[更新]
·
·
分类:行业
4100 阅读

样本方差和总体方差的关系推导

为什么样本均值的方差等于总体方差除以n?

为什么样本均值的方差等于总体方差除以n?

设X为随机变量,X1,X2,...Xi,...,Xn为其n个样本,DX为方差。 根据方差的性质,有D(X Y)DX DY,以及D(kX)k^2*DX,其中X和Y相互独立,k为常数。 于是D(ΣXi/n)ΣD(Xi)/(n^2)DX/n

样本方差和标准差为什么是初除以n-1而不是n?

样本方差的表达式除以 而不是除以 真的是日经话题。实际上,唯一的解释是除以 的定义式可以使得样本方差 作为对总体方差 的估计量,是无偏的。
换句话说,设 是从(总体)均值为 (总体)方差为 的总体中的随机抽样,那么,样本均值定义为 ,样本方差定义为 就有如下结论: , 。这就是无偏性的体现。这里注意,总体并不要求是正态总体,任意分布的总体均有如上的性质。
这里稍微提一下无偏性的重要性。实际上,要求统计量或者某个参数的估计量具有无偏性,比想象中要重要一些。比如你说,如果是有偏的话,那我最后估计的结果里减去偏差不就行了吗?这样做其实暗含了所谓的“偏差”你是知道具体是多少的,而且还暗含了“偏差”是个常数。而实际上,一个估计量有偏,当然可以偏得五花八门——从而造成了不能知道到底是多少。其次,如果对统计量理解深刻的话,你会知道我们所谓的点估计,实际上是使用一个随机变量(如这里的 和 )去估计一个参数的值(非随机变量),而随机变量是对应着有分布的(比如正态总体下, , ),所以,即使总体的参数不变
,不同批次
的样本 做出来的点估计(们)也是不一样
的,而无偏性保证了,即使这些点估计们彼此不同,但如果批次 (不是样本 )越来越多,这些点估计们的柱状图画出来一定是围绕真实值 的正态分布。
如果你觉得上述分析是为了解释而解释,不太自然,那么可以考虑这样的例子。设 是从(总体)均值为 (总体)方差为 的正态
总体中的随机抽样,那么根据极大似然估计(MLE), , (注意这里MLE解出来是除以 的)。不同的估计方法会有不同的统计量,比如,如果使用限制极大似然估计(REML),这里的估计就变成了 , (注意这里的REML解出来是除以 的)。自然你会问,为啥两个方法结果不同?或者说REML到底限制了什么?这个时候,你再来用自由度解释:当 和 都是未知的时候,回忆你解MLE的过程,求导之后设为零,得到两个方程,而 是从第一个方程先
解出来的,也就是说不需要第二个方程就能解出 ,而将其带入第二个方程,才继续解出 。而MLE是不考虑求解过程细节的,所以得到的 和 都是除以 的;REML考虑到了这个细节,所以 是除以 的。
最后补充一下, 这种除以 作为总体方差的估计,有些时候也是有优势的,即使它是有偏的:比如,当 是已知时, 能到达C-Rao下界的;当 未知时,则C-Rao下界无法达到。