5第1章多元分析概述424525X■484583以阵列格式考愿数据,简化了对问题的说明,并使数学计算以一种有序且有效的方式进行.从以下两点得到的是双重益处:(1)以阵列运算描述数字计算;(2)以计算机为实现计算的工具,现在在计算机上用多种语言及统计程序包来进行阵列运算,在第2章我们考虑数字阵列的变换目前,我们只考虑它们作为展示数据方法的价值描述统计量一个大的数据集是很庞大的,而正是它的庞大严重地干扰了任何从中提取适当信息的企图.包含在数据中的许多信息,可以通过计算某些通称为描述统计量的概括数字进行估计,例如,算术平均值,或样本均值,是一种描述统计量,它提供了一种定位测量一一即一个数集的“中心值”而从均值到所有数的距离的平方的平均值提供出用这些数的分布程度或变差我们将尽量依靠描述统计量来测量定位、变差以及线性结合.这些量的正式定义如下:设,工21,,工是第一个变量的n个测量值,则这些测量值的算术平均值是17Cn如果这n个测量值代表被观测的全部测量值集合的一个子集,则元,也称为第一个变量的样本均值.我们采用这个术语是由于本书的大部分内容是用于研究为了分析来自较天聚集的测量值样本而设计的计算方法样本均值可用p个变量中的每一个变量的n个测量值计算出来,因此,一般的,将有p个样本均值:1yk=1,2,."",p(1-1)=n分布的程度由样本方差给出,对第一个变量的n个观测值定义为()Sn台其中是工,的样本均值,一般的,对于个变量,我们有()—12k=1,2,...,p(1-2)n有两点说明.首先许多作者定义样本方差时,用n一1而不是n作为除数.后面我们将看到这样做是有理论上的理由的,并且当测量值的数目n较小时,这样做尤其适当.样本方差的两种形式总能用适当的式子区分开来,其次,尽管记号是样本方差传统的表示方法,我们仍将考一个样本方差位于主对角线的数量阵列,在这种情况下,为了表明方差在阵列中的位置,使用双下标是比较方便的.因此,引人记号.来表示由第个变量的测量值计算出的方差,并有式子()(1-3)S=S=k=1,2,.n样本方差的平方根s,称为样本标准差.这个变差的度量单位和观测值的单位相同.考虑变量1和2的n对测量值:
6实用多元统计分析11n..,其中和a是由第j次试验项观测的(j=1,2,.n).变量1和2的测量值的线性结合由样本协方差给出()()n或是它们各自的平均值的偏差之积的平均值.若对一个变量的大观测值与对另一变量的大观测值一起出现,而小值也一起出现,512将为正数,若一个变量的大值与另一变量的小值一起出现,512将为负数.若两个变量的值间没有什么特别的联系,S12将近似等于零样本协方差(()SiAi=1.2,.,p,k=1,2,...,p(1-4)n度量第个和第个变量间的结合.我们注意到,当时,协方差就简化为样本方差.此外,对所有的i和都有Su=st在此,描述统计量最后一个要考虑的是样本相关系数(或皮尔逊积矩相关系数:参见文献[14]).两个变量间线性结合的这个度量不依赖于测量单位,第个和第k个变量的样本相关系数定义为()()rit(1-5)VsnVstZ(a-)Z(-)其中=1,2,….p和k=1,2,,p.注意对所有ik都有ri=r.样本相关系数是样本协方差的一个标准化形式,其中样本方差的平方根的乘积提供了标准化.请注意,对于sis和s不论是用n或n一1作为除数,r的值都是相同的样本相关系数r也可看做是一个样本协方差.假设初始值工,由标准化值(工一))Vs.和(工一工,)/VS取代.标准化值是可通约的,因为两个集合都是中心在零,并用单位标准差表达.样本相关系数正是标准观测值的样本协方差尽管样本相关系数与样本协方差的记号相同,通常相关较容易解释,因为它的大小是有界的,概括地讲,样本相关系数r有以下性质:1.r的值必定在一1与十1之间.2.这里r度量的是线性结合的强度.如果r=0,这就意味着分量之间无线性结合.另外,r的正负号指出了结合的方向;r<0意味着一个趋势,即当一对数中一个值大于它的平均值,另一个值则小于它的平均值;>0表示这样的趋势,即当一对数中一个值大时另一个值也大,或者两值一起小。3.若第i个变量的测量值变为y,=aa十b,j=1,2,,n,且第k个变量的测量值变为y=ca十d,j=1,2,,n,假定常数a和c的正负号相同,则r的值保持不变参量5和r一般不能传送有关两个变量间结合的全部信息,可能存在不被描述统计量揭示的非线性结合.协方差和相关系数提供了线性结合或沿直线结合的度量.它们的值对其他类型的结合不能给出太多信息.另一方面,这些参量对于“杂乱的”观测值(“离群值”)非常敏感,可能会表示出事实上几乎不存在的结合.尽管有这些缺点,协方差和相关系数仍常常被
7第1章多元分析概述用于计算与分析.当数据没有显示出明显的非线性结合模式且没有出现杂乱的观测值时,它们能提供有说服力的结合的数值概括必须考虑可疑的观测值,以便改正明显的记录错误并根据所发现的原因而采取相应措施,s和的值应该同时用它们的观测值或同时不用这些观测值来引证,来自均值的偏差的平方和与偏差的交叉乘积的和常常是有用的.这些参量是:(1-6))2k= 1,2,,pWA和(1-7)k=1,2,...pi=1.2,p,))Wit由p个变量的n组测量值计算出的描述统计量也可用阵列来构成基本的描述统计量阵列X样本均值XSLpShS12S22.521(1-8)S样本方差和协方差....SppLSplSp2ripr12112421R样本相关系数E.中...1rop样本均值阵列由x表示,样本方差和协方差阵列用大写字母S,表示,而样本相关系数阵列用R表示.在阵列S.中下标n作为助记符用来提醒你n被当做元素s的除数.所有阵列的大小取决于变量的个数力.阵列S,和R由p行p列组成.x是个只有1列p行的阵列.阵列S.和R中每个元素的第1个下标表示行,第2个下标表示列.由于s=s和rr对所有的i,k成立,阵列S,和R中与主对角线对称位置上的元素是相同的,并且这样的阵列称为是对称的。例1.2(关于二元数据的阵列x,S,和R)考虑例1.1中所用数据.每张收据产生一对测量值,总销售金额和售书总数.求阵列x,S和R.由于有4张收据,共得到每个变量的4个测量值,样本均值是1X(42+52+48+58)=50TiS14421×(4+5+4+3)=41Ta:244
8实用多元统计分析X样本方差和协方差是1s11()2×[(42—50)’+(5250)+(4850)”+(5850))=344()5223421X[(4—4)2+(5-4)2+(4-4)°+(3-4)]=0.5N1E(r)1g—元)(12—元)1X[(42-50)(4-4)+(52-50)(5-4)+(48—50)(4—4)+(58-50)(3-4))=—1.5521=512和34-1.57S.1.50.5样本相关系数是5121.5T120.36VsVs22V34XV0.5ri=2故0.36R1]0.36图解法作图是进行数据分析的重要的辅助手段,但常常被人们忽略.尽管不可能同时对几个变量的所有测量值作图并研究它们的形状,但单个变量的图形和一对变量的图形仍可提供很多信息.高级计算机程序和显示设备使我们可以相对容易地从一维、二维或三维空间轻松而直观地检查数据.另一方面,利用纸和笔绘图,也可从数据中领悟许多有价值的东西.表示数据的简单、优美且有效的方法可以从文献[29]得到.为一对对的变量作图并直观地考察连结的模式,这是一种很好的统计学做法.考虑以下两个变量的7对观测值:变量1(r):3246825变量2():55.5471057.5这些数据在二维平面上用7个点表示(每个坐标轴代表一个变量),如图1.1所示.每个点的坐标由一对测量值确定:(3,5),(4,5.5),,(5,7.5),所得到的二维图形称为散布图表或散布图.图1.1还分别显示了由变量1和变量2的观测值单独作的散点图.这种图称为(边缘)点
9第1章多元分析概述图.它们可以从原始观测值直接得到,也可将点投影到散布图的每个坐标轴上得到单变量点图中所包含的信息可被用来计算样本均值工,和:及样本方差s和S2(参考练习1.1.)散布图表明了点的方位,这些点的坐标可用来计算样本协方差S12.在图1.1的散布图中,的大值与的大值一起出现,而x的小值又与的小值一起出现因此,S将是正的点图与散布图包含了不同类型的信息,边缘点图中所含信息不足以构造出散布图.作为一个说明,假设对前面图1.1中的数据重新配对之后,使得变量z和的测量值如下:5462283变量1(a):575.541057.5变量2(r):(我们已简单地重新排列了变量1的数值.)数据重新排列过的散布图和点图如图1.2所示,比较图1.1和图1.2.我们发现边缘点图是相同的,而散布图却明显不同了.在图1.2中,的的大值同时出现.因此,描述统计量中单独的大值与的小值一起出现,而的小值又与一对变量间结合的样本协方差5现在却变为负数变量,2+5和522保持不变,而度量X24X2410X24x2410-1010B88166:6:4210x0C810Xa2N6810x268点图10xA68图1.2数据重新排列后的散布图和点图图1.1散布图和边缘点图图1.1和图1.2中数据的不同取向无法通过单独的边缘点图辨别.然而,在两种情况下边缘点图是相同的,这个事实也无法立即x2440从散布图中显示出来.这两种图解法不是对立的,而是相互补充的。.接下来两个例子可进一步说明通过图30元形表示可以传递的信息20例1.3(异常的观测值对样本相关系1属数的影响)邓白氏公司10在1990年4月30日的《福布斯》杂志UE上的一篇文章中,列出了16家最大的出版通公司的某些财务数据,以体现其工作情况时代华纳公司与生产率.关于一雇员(工作)和=每10个雇员创的利润(生产率)这一对变量的数1020304050607080x0雇员(千人)据如图1.3所示.我们已标明两个独特的观测值.邓白氏公司从雇员人数讲是最大图1.316家出版公司的雇员人均利润和雇员人数