32第一部分概率与统计基础 China-ub.com var(X+ y)=var(X)+ var(y)+ 2cov(X, Y) (2-40) var(x-Y)=var(X)+ var(Y)-2cov(x, Y) (2-41) 当然,如果两变量之间的协方差为0,则var(X+y)、var(x-Y)均等于var(x)+var(Y) 留给读者练习:求债券等级一例中X+y的方差? 式(2-40)更一般的情况是 var(aX+br)=avar(X)+ bvar(y)+2 ab cov(x, y) (2-42) 同理,式(2-41)更一般的情况是 var(ax-by)=avar(X)+bvar(Y)-2 ab cov(x, y) (2-43) 其中,a,b为常数 例如 var(5 X+7 Y)=25var(X)+ 49var( y)t 2(35)cov(X, y) 25var(X)+ 49var(y)t 70 cov(X,Y 2.7.5条件期望值 在回归分析中,另一个特别重要的概念是条件期望值( conditional expectation),它与前面 讨论的随机变量的期望值——称为非条件期望值( unconditional expectation)—不同。下面我们 来解释这两个概念的差别 回到债券等级一例(例2.14),在该例中,债券等级X可取值1,2,3,债券收益γ可取值 5%,17.5%。X的期望值是多少呢?从表2-4得其期望值为20,同样可得到y的期望 值为12.10%。这些期望值称为非条件期望值 但现在考虑这样一个问题:已知债券等级为1,求债券收益的均值?换一种表达方式,即 为,给定X=1,求Y的条件期望值?更专业地,求E(Y|X=1)?这就是Y的条件期望值, 类似地,求E(X|Y=8.5)?即已知债券收益为85%,求X的条件期望值? 从上面的讨论中,很清楚地看到,在计算随机变量的非条件期望值时,不必考虑其他任 变量的信息,但是在计算条件期望值时,必须考虑 下面给出条件期望值的定义 E(X|Y=y=∑X(Xy=y) 这里,给出的是离散型随机变量的条件期望值计算公式。f(X|y=y)是变量x的条件概 率密度函数,∑表示对所有的x求和。与(24)相比,前面讨论过的E(x)称为非条件期望 值。把式(2-44)与式(2-18)作比较,很清楚地看到,条件期望值E(XY=y)与非条件期望值 的计算公式很相像,所不同的是在条件期望值中的密度函数是条件概率密度函数,而不像在非 条件期望值中用的是非条件期望值 同样,我们给出变量Y的条件期望值: E(Y|X=x)=∑y(rX=x (2-45) 们用一个具体例子来说明如何计算条件期望值。 计算表明,在给定X=1条件下,Y的条件期望值为88%,而在前面计算过,Y的非条件 期望值为12.10%。对于这个结果我们不应感到惊讶—在已知债券等级是最高一级(三个B)的 条件下,我们预期的债券收益当然会低一些。正如前面看到的条件概率密度函数通常不同于边 缘概率密度函数一样,一般条件期望值也不同于非条件期望值 在结束有关概率分布特性的讨论之前,我们再来看另外两个概念——概率密度函数的偏度 newness)和峰度( kurtosis)。偏度和峰度是用于描述概率密度函数形状的数字特征。偏度(S)是
var ( X + Y ) = var ( X ) + var ( Y ) + 2cov ( X , Y ) ( 2 - 4 0 ) var ( X-Y ) = var ( X ) + var ( Y )-2cov ( X , Y ) ( 2 - 4 1 ) 当然,如果两变量之间的协方差为0,则var ( X + Y )、var ( X-Y )均等于var ( X ) + var( Y )。 留给读者练习:求债券等级一例中 X + Y 的方差? 式( 2 - 4 0 )更一般的情况是: var ( a X + b Y ) = a 2var ( X ) + b 2var ( Y ) + 2 a b cov ( X , Y ) ( 2 - 4 2 ) 同理,式( 2 - 4 1 )更一般的情况是: var ( a X-b Y ) = a 2var ( X ) + b 2var ( Y )-2 a b cov ( X , Y ) ( 2 - 4 3 ) 其中,a , b 为常数。 例如, var (5 X±7 Y ) = 25var ( X ) + 49var ( Y ) ± 2(35)cov ( X , Y ) ( 2 - 4 4 ) = 25var (X) + 49var ( Y ) ± 70 cov ( X , Y ) 2.7.5 条件期望值 在回归分析中,另一个特别重要的概念是条件期望值(conditional expectation),它与前面 讨论的随机变量的期望值—称为非条件期望值(unconditional expectation)—不同。下面我们 来解释这两个概念的差别。 回到债券等级一例(例2 . 1 4 ),在该例中,债券等级 X 可取值1,2,3,债券收益 Y 可取值 8 . 5%,11 . 5%,1 7 . 5%。X 的期望值是多少呢?从表2 - 4得其期望值为2 . 0,同样可得到 Y 的期望 值为1 2 . 1 0%。这些期望值称为非条件期望值。 但现在考虑这样一个问题:已知债券等级为 1,求债券收益的均值?换一种表达方式,即 为,给定 X = 1, 求 Y 的条件期望值?更专业地,求 E ( Y|X = 1 )?这就是 Y 的条件期望值, 类似地,求 E ( X|Y = 8.5)?即已知债券收益为8 . 5%,求 X 的条件期望值? 从上面的讨论中,很清楚地看到,在计算随机变量的非条件期望值时,不必考虑其他任一 变量的信息,但是在计算条件期望值时,必须考虑。 下面给出条件期望值的定义: E ( X|Y = y ) = ( 2 - 4 4 ) 这里,给出的是离散型随机变量的条件期望值计算公式。 f ( X|Y = y )是变量 X 的条件概 率密度函数, 表示对所有的 X 求和。与( 2 - 4 4 )相比,前面讨论过的 E ( X )称为非条件期望 值。把式( 2 - 4 4 )与式( 2 - 1 8 )作比较,很清楚地看到,条件期望值 E ( X|Y = y )与非条件期望值 的计算公式很相像,所不同的是在条件期望值中的密度函数是条件概率密度函数,而不像在非 条件期望值中用的是非条件期望值。 同样,我们给出变量Y的条件期望值: E ( Y|X = x ) = ( 2 - 4 5 ) 我们用一个具体例子来说明如何计算条件期望值。 计算表明,在给定 X = 1条件下,Y 的条件期望值为8 . 8 9%,而在前面计算过,Y 的非条件 期望值为1 2 . 1 0%。对于这个结果我们不应感到惊讶—在已知债券等级是最高一级 (三个B )的 条件下,我们预期的债券收益当然会低一些。正如前面看到的条件概率密度函数通常不同于边 缘概率密度函数一样,一般条件期望值也不同于非条件期望值。 在结束有关概率分布特性的讨论之前,我们再来看另外两个概念—概率密度函数的偏度 ( s k e w n e s s )和峰度( k u r t o s i s )。偏度和峰度是用于描述概率密度函数形状的数字特征。偏度 (S)是 Yf (Y | X = x) Y å X å Xf(X | Y = y) Y å 32部分第一部分 概率与统计基础 下载
China-ub.com 下载 第2章基本统计概念的回顾33 对称性的度量,峰度(K)是一概率密度函数高低或胖瘦的度量,见图2-8 例223 在债券等级一例中,求E(Y|X=1)?即求在已知债券等级为1的条件下,债 券收益的期望值。 利用式(2-45),得到 E(Y|X=1)=∑Yf(y|X=1) =85f(Y=8.5|X=1)+115f(y=11.5|X=1)+175f(Y=17.5|X=1) =85(0.87)+11.5(0.13)+175(0) 对称 左偏 低峰态 图2-8 a)偏度b)峰度 在度量偏度和峰度之前,首先需要了解概率密度函数的三阶矩与四阶矩。我们已经知道随 机变量X的一阶矩是E(X)u,即X的均值,二阶中心矩是E(X-u,)(即X的方差)。按照这 种方式,三阶中心矩和四阶中心矩表示为 三阶中心矩:E(X-u, 四阶中心矩:E(X-u,) 般r阶中心矩可表示为 1∫}=8.5=1)=(=8.5,X=1)x=1)=0.87。即条件概率密度函数等于联合概率密度函数与边缘概率密度函 数之比,参见等式(2-16)
第2章 基本统计概念的回顾介绍33 对称性的度量,峰度( K )是一概率密度函数高低或胖瘦的度量,见图 2 - 8。 图 2 - 8 a )偏度 b )峰度 在度量偏度和峰度之前,首先需要了解概率密度函数的三阶矩与四阶矩。我们已经知道随 机变量 X 的一阶矩是 E ( X )= ux,即 X 的均值,二阶中心矩是E (X-ux ) 2 (即 X 的方差)。按照这 种方式,三阶中心矩和四阶中心矩表示为: 三阶中心矩: E (X-ux ) 3 四阶中心矩: E (X-ux ) 4 一般 r 阶中心矩可表示为: 下载 在债券等级一例中,求 E ( Y|X = 1 )?即求在已知债券等级为 1的条件下,债 券收益的期望值。 利用式( 2 - 4 5 ),得到1, E (Y|X = 1 )= å Y f ( Y|X = 1 ) = 8.5 f ( Y = 8 . 5|X = 1 ) + 11.5 f ( Y = 11 . 5|X =1)+17.5 f ( Y = 1 7 . 5|X = 1 ) = 8 . 5 ( 0 . 8 7 ) + 11 . 5 ( 0 . 1 3 ) + 1 7 . 5 ( 0 ) = 8 . 8 9 例2.23 右偏 a) b) 左偏 常峰态 高峰态 低峰态 对称 1 f(Y= 8 . 5 |X= 1 ) =f(Y= 8 . 5 ,X= 1 ) /f(X= 1 ) = 0 . 8 7。即条件概率密度函数等于联合概率密度函数与边缘概率密度函 数之比,参见等式( 2 - 1 6 )
34第一部分概率与统计基础 China-ub.com r阶中心矩:E(x-uy 给出这些定义以后,通常运用下列公式计算偏度和峰度 ECX-u,), E(X-1)I (2-46) 三阶矩的平方 两阶矩的立方 因为,对于对称的概率密度函数,其三阶矩为零,因此这样的一个概率密度函数,其偏度 S为零。一个最重要的例子就是正态分布,我们将在下一章详细讨论。如果偏度S的值为正 则其概率密度为正偏或右偏:如果S的值为负,则其概率密度为负偏或左偏 2-47) IE(X-u) 四阶矩 两阶矩的平方 概率密度函数的峰度K小于3时,成为低峰态的(胖的或短尾的),峰度K大于3时,称为尖峰 态的(瘦的或长尾的),见图2-8。正态分布的峰度K为3,这样的概率密度函数称为常峰态的 在随后的章节中将大量使用正态分布,因此,对其偏度S(=0)和峰度K(=3)的了解将有助 于比较其他的概率分布函数。 直接扩展式(2-27),即可得到三阶矩和四阶矩的计算公式 阶矩:∑(X-n 四阶矩:∑(x-1) (2-49) 其中X是离散型随机变量。对于连续型随机变量,我们将求和符号换成积分符号()即可 考虑表2-6给出的概率密度函数。已知期望值和方差分别为3.5,29167。三 阶中心矩和四阶中心矩的计算如下: f(x) (1-3.5)(1/6) 1-3.5)(1/ 2 (2-3.5)(1/6) (2-3.5)(1/6) (4-3.5)(1/6) (4-3.5)(1/6) (5-3.5)(1/6) (6-3.5)(1/6) (6-3.5)(1/6) 14.732 根据偏度和峰度的定义,读者可以验证这里的偏度为0(很令人惊讶吗?),峰 度为1.7317。因此,虽然这个概率密度函数以均值呈中心对称,但它却是低峰态 分布,即比正态分布略“胖”一些,我们可从图2-6明显地看出来 2.8从总体到样本 为了计算概率分布的特性,比如期望值、方差、协方差、相关系数、条件期望值等等,我 们显然需要概率密度函数,也即整个样本空间或总体(即概率密度函数)。因此,要想知道在某 时刻,居住在纽约市所有居民的平均收入,显然需要知道纽约全部人口。虽然在理论上,某 时点上的居住在纽约的居民是有限的,但在实际中很难收集总体中每一个成员的信息(用概
r 阶中心矩: E (X-ux ) r 给出这些定义以后,通常运用下列公式计算偏度和峰度 : S = ( 2 - 4 6 ) S= 因为,对于对称的概率密度函数,其三阶矩为零,因此这样的一个概率密度函数,其偏度 S 为零。一个最重要的例子就是正态分布,我们将在下一章详细讨论。如果偏度 S 的值为正, 则其概率密度为正偏或右偏;如果 S 的值为负,则其概率密度为负偏或左偏。 K= ( 2 - 4 7 ) K= 概率密度函数的峰度 K 小于3时,成为低峰态的(胖的或短尾的),峰度 K 大于3时,称为尖峰 态的(瘦的或长尾的),见图2-8。正态分布的峰度 K 为3,这样的概率密度函数称为常峰态的。 在随后的章节中将大量使用正态分布,因此,对其偏度 S ( = 0 )和峰度 K ( = 3 )的了解将有助 于比较其他的概率分布函数。 直接扩展式( 2 - 2 7 ),即可得到三阶矩和四阶矩的计算公式, 三阶矩: ( 2 - 4 8 ) 四阶矩: ( 2 - 4 9 ) 其中 X 是离散型随机变量。对于连续型随机变量,我们将求和符号换成积分符号( ò )即可。 2.8 从总体到样本 为了计算概率分布的特性,比如期望值、方差、协方差、相关系数、条件期望值等等,我 们显然需要概率密度函数,也即整个样本空间或总体 (即概率密度函数)。因此,要想知道在某 一时刻,居住在纽约市所有居民的平均收入,显然需要知道纽约全部人口。虽然在理论上,某 一时点上的居住在纽约的居民是有限的,但在实际中很难收集总体中每一个成员的信息 (用概 å(X - ux ) 4 f (X) å(X - ux ) 3 f(X ) 四阶矩 两阶矩的平方 E(X - ux ) 4 [E(X -ux ) 2 ] 2 三阶矩的平方 两阶矩的立方 = [E(X -ux ) 3 ] 2 [E(X -ux ) 2 ] 3 34部分第一部分 概率与统计基础 下载 考虑表2 - 6给出的概率密度函数。已知期望值和方差分别为 3 . 5,2.916 7。三 阶中心矩和四阶中心矩的计算如下: X f ( X ) (X-ux ) 3 f ( X ) ( X-ux ) 4 f ( X ) 1 1 / 6 ( 1-3 . 5 )3 ( 1 / 6 ) ( 1-3 . 5 )4 (1/6) 2 1 / 6 ( 2-3 . 5 )3 ( 1 / 6 ) ( 2-3 . 5 )4 ( 1 / 6 ) 3 1 / 6 ( 3-3 . 5 )3 ( 1 / 6 ) ( 3-3 . 5 )4 ( 1 / 6 ) 4 1 / 6 ( 4-3 . 5 )3 ( 1 / 6 ) ( 4-3 . 5 )4 ( 1 / 6 ) 5 1 / 6 ( 5-3 . 5 )3 ( 1 / 6 ) ( 5-3 . 5 )4 ( 1 / 6 ) 6 1 / 6 ( 6-3 . 5 )3 ( 1 / 6 ) ( 6-3 . 5 )4 ( 1 / 6 ) 求和: 0 1 4 . 7 3 2 根据偏度和峰度的定义,读者可以验证这里的偏度为 0 (很令人惊讶吗? ),峰 度为1.731 7。因此,虽然这个概率密度函数以均值呈中心对称,但它却是低峰态 分布,即比正态分布略“胖”一些,我们可从图 2 - 6明显地看出来。 例2.24
China-6、con 下载 2章基本统计概念的回顾35 率的语言,也即结果)。实践中我们所能做到的是从总体中抽取一个“有代表性的”或“随机 的”样本,然后计算抽样样本的人均收入。 但是,从样本中得到的平均收入等于总体真实的平均收入吗?很可能不同。类似的,如 果我们从抽样总体中计算收入的方差,那么,它等于总体真实的方差吗?同样,很可能不 那么,如果仅仅有来自于总体的一两个样本,怎样才能知道总体的数字特征呢?比如期望, 方差等等。通览本书,你会发现,实际上,我们都无一例外地依赖于来自某个总体的一个或多 个样本 这个重要问题的答案将是本书第4章讨论的重点。但首先我们必须求出与各种总体数字特 征相对应的样本矩( sample moments) 2.8.1样本均值 随机变量X代表某汽车销售商每天销售汽车的数量。若rX服从某一概率密度函数。而 且,我们想求每月前十天,该汽车销售商出售汽车的平均数量(即期望值)。假设该汽车销售商 已从业十年,但在过去的十年里,没有时间细看每月前十天销售数量。若该销售商从过去的数 据中随机抽取某月销售量,并记下该月前十天的汽车销售数量:9,11,11,14,13,9,8,9 14,12。这就是一个包括十个样本值的样本。注意该汽车销售商共有120个月的数据,如果他 决定抽取另外一个月,则可能得到另外十个不同值。 如果该销售商把十个样本值相加求和再除以10(样本容量),即为样本均值 随机变量的样本均值通常用符号表示,定义如下: X= X (2-50) 其中∑x表示从1到n对所有的X值相加,n为样本容量 上面定义的样本均值就是总体均值(期望E(X)的估计量( estimator)。估计量可以简单地 理解为估计总体(比如总体均值)的规则或公式。在第3章中,我们将讨论怎样用样本均值了估计 期望值E(X)。 在本例中,样本均值为 x=9+11++12 我们称样本均值是总体均值的估计值( estimate)。估计值简单地说就是估计量的取值,例 如在本例中是11。在这个例子中,每月前十天汽车销售的平均数量为11,但这个值并不一定等 于E(X)。要计算E(X),需要考虑其他119个月前十天的汽车销售量。简言之,我们需要考 虑整个的概率密度函数。但是,在第3章中你会看到,一般地,样本估计值(比如11)很好的近 似了真实的E(X) 2.82样本方差 在上例中给出的10个样本值并不全都等于样本均值11。这种变异性可用样本方差(S2)来度 量。它是总体方差o2的估计量。样本方差 sam ple variance)的定义如下: 1随机样本的准确定义将在后面给出。僇参见第3章)
第2章 基本统计概念的回顾介绍35 率的语言,也即结果 )。实践中我们所能做到的是从总体中抽取一个“有代表性的”或“随机 的”样本,然后计算抽样样本的人均收入。 1 但是,从样本中得到的平均收入等于总体真实的平均收入吗?很可能不同。类似的,如 果我们从抽样总体中计算收入的方差,那么,它等于总体真实的方差吗?同样,很可能不 同。 那么,如果仅仅有来自于总体的一两个样本,怎样才能知道总体的数字特征呢?比如期望, 方差等等。通览本书,你会发现,实际上,我们都无一例外地依赖于来自某个总体的一个或多 个样本。 这个重要问题的答案将是本书第 4章讨论的重点。但首先我们必须求出与各种总体数字特 征相对应的样本矩(sample moments)。 2.8.1 样本均值 随机变量 X 代表某汽车销售商每天销售汽车的数量。若 r.v X 服从某一概率密度函数。而 且,我们想求每月前十天,该汽车销售商出售汽车的平均数量 (即期望值)。假设该汽车销售商 已从业十年,但在过去的十年里,没有时间细看每月前十天销售数量。若该销售商从过去的数 据中随机抽取某月销售量,并记下该月前十天的汽车销售数量: 9,11,11,1 4,1 3,9,8,9, 1 4,1 2。这就是一个包括十个样本值的样本。注意该汽车销售商共有 1 2 0个月的数据,如果他 决定抽取另外一个月,则可能得到另外十个不同值。 如果该销售商把十个样本值相加求和再除以 1 0 (样本容量),即为样本均值。 随机变量的样本均值通常用符号 X _ 表示,定义如下: ( 2 - 5 0 ) 其中 表示从1到 n 对所有的X值相加,n 为样本容量。 上面定义的样本均值就是总体均值 (期望 E ( X ) )的估计量( e s t i m a t o r )。估计量可以简单地 理解为估计总体(比如总体均值)的规则或公式。在第3章中,我们将讨论怎样用样本均值 X _ 估计 期望值 E ( X )。 在本例中,样本均值为: 我们称样本均值是总体均值的估计值( e s t i m a t e )。估计值简单地说就是估计量的取值,例 如在本例中是11。在这个例子中,每月前十天汽车销售的平均数量为 11,但这个值并不一定等 于 E ( X )。要计算 E ( X ),需要考虑其他11 9个月前十天的汽车销售量。简言之,我们需要考 虑整个的概率密度函数。但是,在第3章中你会看到,一般地,样本估计值 (比如11 )很好的近 似了真实的 E ( X )。 2.8.2 样本方差 在上例中给出的1 0个样本值并不全都等于样本均值 11。这种变异性可用样本方差 (S 2 x )来度 量。它是总体方差 2 x 的估计量。样本方差( s a m p l e v a r i a n c e )的定义如下: Sx ( 2 - 5 1 ) 2 = (Xi - X) 2 i =1 n -1 n å X = 9 +11 +11 +L+ 12 10 =11 Xi i=1 n å X = Xi i=1 n n å 下载 1 随机样本的准确定义将在后面给出。(参见第 3章)
36第一部分概率与统计基础 China-ub.com 即样本方差等于每个X与其均值差的平方除以n-1再求和。(n-1)称为自由度,它的准确 定义将在第3章给出。2S:的正的平方根S称为样本标准差( (sample standard deviation,样本sd) 由上例中给出的10个样本值求得其样本方差为 s:=(9-1)+1-1)+-+(2-1 44/94.89 样本标准差S=√4.89=221。注意489是总体方差的估计值,2.21是总体标准差的估计 值。再一次强调,估计值是样本估计量的取值。 2.8.3样本协方差 例225 设有两变量Ⅺ股票价格)和Y(消费者价格)构成的二元总体。进一步假设从该二元 总体中得一随机样本,见表2-8的第一、第二列。在这个例子中,股票价格用道琼斯指数 均值来度量,消费者价格用消费者价格指数CPI)度量。表中其他各值我们随后讨论。 类似式(2-3)总体协方差的定义两随机变量之间的样本协方差( sample covariance定义如下 X,-XC-Y 样本cov(X,Y 即样本协方差为两随机变量与其各自的(样本)均值求差再除以自由度(n-1),(如果样本 容量足够大,可用n作除数)然后对其差积求和。式(2-52)定义的样本协方差是总体协方差的估 量。本例中给出的样本协方差的数值即为总体协方差的估 样本协方差cov(X,Y)=63294/9=702620 因此,本例中的股票价格与消费者价格的协方差为正。有些分析家认为投资股票可以预防 通货膨胀,也就是说,当通货膨胀加剧时,股票的价格也会上升。虽然对于这一结论缺乏经验 的证据,但1980~1989年期的确是这样的。 表2-81980-1989年道-琼斯指数均值(X与消费者价格指数(Y的样本协方差及样本相关系数 ()-y(x了 (8914-1504.4) 932.42 (93242-15044) 9-1504.4) 884.36 l190.34 2060.82 2508.91 124.0 63234 Y=15044/10=15044 样本方差va(Y=368870 Y=1046.4/10=104.64 资料来源: Data on Y and X are from the Economic Report of the President.1996, Tables B91,p.384,andB 56, p. 343, respectively 1如果样本容量很大,式(2-51)中的分子可以用n除,而不是n-1。 2在式(2-51)中,用除数n-1的原因是,式(2-51)给出了真实的G的一个无偏估计量。也就是说,如果重复 使用式(2-51),平均而言,根据式(2-51)计算的样本方差将等于真实的总体方差。估计量是无偏的定义 我们将在第4章给出
即样本方差等于每个 X 与其均值差的平方除以 n-1再求和。1 (n-1 )称为自由度,它的准确 定义将在第3章给出。2 S 2 x 的正的平方根 Sx 称为样本标准差(sample standard deviation,样本s . d )。 由上例中给出的1 0个样本值求得其样本方差为: 样本标准差 。注意4 . 8 9是总体方差的估计值, 2 . 2 1是总体标准差的估计 值。再一次强调,估计值是样本估计量的取值。 2.8.3 样本协方差 类似式( 2 - 3 3 )总体协方差的定义,两随机变量之间的样本协方差(sample covariance)的定义如下: 样本 ( 2 - 5 2 ) 即样本协方差为两随机变量与其各自的 (样本)均值求差再除以自由度 ,( n -1 ),(如果样本 容量足够大,可用 n 作除数)然后对其差积求和。式( 2 - 5 2 )定义的样本协方差是总体协方差的估 计量。本例中给出的样本协方差的数值即为总体协方差的估计值: 样本协方差 cov ( X , Y )=63 294/9=7 026.20 因此,本例中的股票价格与消费者价格的协方差为正。有些分析家认为投资股票可以预防 通货膨胀,也就是说,当通货膨胀加剧时,股票的价格也会上升。虽然对于这一结论缺乏经验 的证据,但1 9 8 0~1 9 8 9年期的确是这样的。 表2-8 1980-1989年道-琼斯指数均值(X)与消费者价格指数(Y)的样本协方差及样本相关系数 Y X (Y-ˉY )( X-ˉX ) ( 1 ) ( 2 ) ( 3 ) 8 9 1 . 4 8 2 . 4 ( 8 9 1 . 4-1 504.4) ( 8 2 . 4-1 0 4 . 6 4 ) 9 3 2 . 4 2 9 0 . 9 ( 9 3 2 . 4 2-1 504.4) ( 9 0 . 9-1 504.4) 8 8 4 . 3 6 9 6 . 5 — — 1 190.34 9 9 . 6 — — 1 178.48 1 0 3 . 9 — — 1 328.23 1 0 7 . 6 — — 1 792.76 1 0 9 . 6 — — 2 275.99 11 3 . 6 — — 2 060.82 11 8 . 3 — — 2 508.91 1 2 4 . 0 — — 15 044 1 046.4 ≈63 234 ˉY =15 044/10=1 504.4 样本方差 v a r (Y ) = 3 6 8 . 8 7 0 X =1 046.4/10=104.64 样本方差 v a r (X ) = 1 6 1 . 1 8 资料来源:Data on Y and X are from the Economic Report of the President, 1 9 9 6, Tables B-91, p.384, and B- 56, p.343, respectively. cov( X,Y) = å(Xi - X )(Yi -Y ) n -1 Sx = 4.89 = 2.21 Sx 2 = (9 -11)2 +(11 -11)2 + L+ (12 - 11)2 9 = 44/9= 4.89 36部分第一部分 概率与统计基础 下载 设有两变量X(股票价格)和Y(消费者价格)构成的二元总体。进一步假设从该二元 总体中得一随机样本,见表2 - 8的第一、第二列。在这个例子中,股票价格用道-琼斯指数 均值来度量,消费者价格用消费者价格指数( C P I )度量。表中其他各值我们随后讨论。 例2.25 1 如果样本容量很大,式( 2 - 5 1 )中的分子可以用n除,而不是n-1。 2 在式( 2 - 5 1 )中,用除数n-1的原因是,式( 2 - 5 1 )给出了真实的 2 x的一个无偏估计量。也就是说,如果重复 使用式( 2 - 5 1 ),平均而言,根据式 ( 2 - 5 1 )计算的样本方差将等于真实的总体方差。估计量是无偏的定义 我们将在第4章给出