方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
方差是衡量源数据和期望值相差的度量值。
- 中文名
- 方差
- 外文名
- variance/deviation Var
- 类 型
- D(X) 数学(统计学)
“方差”(variance)这一词语率先由罗纳德·费雪(Ronald Fisher)在其论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 [1]中提出。
方差在统计描述和概率分布中各有不同的定义,并有不同的公式。
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
在概率分布中,设 是一个离散型随机变量,若E((X-E(X))2)存在,则称E((X-E(X))2)为 的方差,记为 , 或 ,其中 是 的期望值, 是变量值 [1],公式中的 是期望值expected value的缩写,意为“随机变量值与其期望值之差的平方”的期望值。 [2]离散型随机变量方差计算公式:
若X的取值比较集中,则方差 较小,若X的取值比较分散,则方差 较大。
因此, 是刻画 取值分散程度的一个量,它是衡量取值分散程度的一个尺度。
3、设 与 是两个随机变量,则
其中协方差
特别的,当X,Y是两个不相关的随机变量则
此性质可以推广到有限多个两两不相关的随机变量之和的情况。
(当且仅当X取常数值 时的概率为1时, 。)
注:不能得出 恒等于常数,当 是连续的时候X可以在任意有限个点取不等于常数 的值。
5、 。
证明
1、
2、
3、
4、充分性: ,则有
必要性:用反证法 ,概率不会大于1,只需考虑是否等于1或小于1。
假设 ,则对于某一个数 。
于是 。 [4]
离散型方差的计算式为:
而将上式展开后可得:
连续型方差的计算式为:
将上式展开后可得:
以上两式是一样的,只是写法不同。
证明:由数学期望的性质得
X服从两点分布,则
求正态分布的数学期望&&方差
设 ,求 , .
令 ,由于 ,所以 ,已知 , ,从而
已知某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图1:
甲仪器测量结果:
乙仪器测量结果:全是a
两台仪器的测量结果的均值都是 a 。但是用上述结果评价一下两台仪器的优劣,很明显,我们会认为乙仪器的性能更好,因为乙仪器的测量结果集中在均值附近。
由此可见,研究随机变量与其均值的偏离程度是十分必要的。那么,用怎样的量去度量这个偏离程度呢?容易看到E[|X-E[X]|]能度量随机变量与其均值E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量E[(X-E[X])2] 这一数字特征就是方差。
而当用 作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的 倍, 的数学期望才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用 来估计X的方差,并且把它叫做“样本方差”。
公式可以进一步推导为: 。其中x为这组数据中的数据,n为大于0的整数。
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 [6]
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。当然,这个结论是在二阶统计矩下成立。 [7]