协方差与相关系数
2 协方差与相关系数
定性的思考 通常人们在研究单个的随机变量的时候,并不 关心它们的分布,而是关心它们的数学期望和 方差,这也是因为分布携带了太多的信息,很 难给人们一个快捷的印象. 而人们在研究两个随机变量的关系的时候,也 不关心它们的联合分布,这是携带了更多信息 的内容.人们关心的是,这两个随机变量是联 系非常紧密呢?还是毫无关系?即相互独立? 人们希望用一个数字就能够在相当程度上描 述两个随机变量的联系程度
3 定性的思考 通常人们在研究单个的随机变量的时候, 并不 关心它们的分布, 而是关心它们的数学期望和 方差, 这也是因为分布携带了太多的信息, 很 难给人们一个快捷的印象. 而人们在研究两个随机变量的关系的时候, 也 不关心它们的联合分布, 这是携带了更多信息 的内容. 人们关心的是, 这两个随机变量是联 系非常紧密呢? 还是毫无关系?即相互独立? 人们希望用一个数字就能够在相当程度上描 述两个随机变量的联系程度
当然,从数学上看,这是不可能的 因为联合分布的信息量为许多个数,甚至无穷 多个数,因此一个数不可能反映出无穷多个数 携带的信息 但是我们仍然希望能够找到描述它们之间相 互关系的一个数,至少在大多数实际情况下能 够描绘两个随机变量联系的紧密程度,例如 如果这个数字越接近于零,说明这两个随机变 量的联系越差,越接近于相互独立,反之则联 系越紧密,越接近于相互之间有关系
4 当然, 从数学上看, 这是不可能的 因为联合分布的信息量为许多个数, 甚至无穷 多个数, 因此一个数不可能反映出无穷多个数 携带的信息. 但是我们仍然希望能够找到描述它们之间相 互关系的一个数, 至少在大多数实际情况下能 够描绘两个随机变量联系的紧密程度, 例如, 如果这个数字越接近于零, 说明这两个随机变 量的联系越差, 越接近于相互独立, 反之则联 系越紧密, 越接近于相互之间有关系
例如 个人的身高和体重是非常有关系的,但是又 并不完全是严格的函数关系,那么关系程度究 竞有多大呢? 个人的吸烟量和他的平均寿命是有关系的, 这个关系量又有多大呢? 种化肥的施用量和农作物的产量是有关系 的,这个关系的大小又是如何呢? 这样一些问题都希望能够用一个数字就表示 出来,这就是人们想到要用协方差和相关系数 的原因
5 例如 一个人的身高和体重是非常有关系的, 但是又 并不完全是严格的函数关系, 那么关系程度究 竟有多大呢? 一个人的吸烟量和他的平均寿命是有关系的, 这个关系量又有多大呢? 一种化肥的施用量和农作物的产量是有关系 的, 这个关系的大小又是如何呢? 这样一些问题都希望能够用一个数字就表示 出来, 这就是人们想到要用协方差和相关系数 的原因
对于两个随机变量ξ和n 当它们是完全相等的时候,联系是最紧密的了而当 它们相互独立的时候,联系是最差的了 因此我们先研究它们的和外m的方差 D(+m)=E{+nB(+m)}2 =E{2E2+Em}2 E{(-E2)2+(nEm)2+2(-E)(n-Em)} FE(5-ES+E(n-En2+2E(-ES(n-En =D+Dm+2E{(5E5(Em)}
6 对于两个随机变量x和h 当它们是完全相等的时候, 联系是最紧密的了.而当 它们相互独立的时候, 联系是最差的了. 因此我们先研究它们的和x+h的方差: D(x+h)=E{x+h-E(x+h)}2 =E{x-Ex+h-Eh} 2 =E{(x-Ex) 2+(h-Eh) 2+2(x-Ex)(h-Eh)} =E(x-Ex) 2+E(h-Eh) 2+2E{(x-Ex)(h-Eh)} =Dx+Dh+2E{(x-Ex)(h-Eh)}