20实用多元统计分析熊1熊2熊3熊4180180180180长长长身160K身160身160身16014014014014023452345234234年龄年龄年龄年龄熊5熊6熊7180180180长长K身160身160身160140-140140-234523423451年龄年龄年龄图1.15单个母灰熊身长的生长曲线列I星形假设每个数据单元由力≥2个变量的非负观测值组成.在二维空间中,我们可构造具有固定(参照)半径的圆,从圆心引出P条等距的射线,这些射线的长度代表变量的数值,以直线连接射线的端点即形成一个星形.每个星形代表一个多元观测值,这些星形可根据它们(主观的)的相似性分组,在构造星形时,将观测值标准化常常会有所帮助.在这种情况下,一些观测值会是负数观测值可以重新表示,使得圆心代表整个数据集中的最小标准化观测值例1.11(星形的实用数据)图1.16给出5个星形图.它们代表第12章表12.4所列出的22个公用事业公司中的前5个公司的观测值.共有8个变量,因此,这些星形是变形的八边形,所有变量的观测值都是经过标准化的.在这前5个公司中,对任何变量最小的标准化观测值是一1.6.将这个值作为零点,沿着从圆心引出的8条等角射线以相同的比例画出8个变量,这些变量以12点钟的位置为起点,按顺时针方向排序,初看起来,这些公司中没有一个与其他任何一个是相似的.由于星形的构造方法,不管怎样,每个变量在感观上权数是相等的.如果我们仔细观察变量6(以每年使用千瓦时为单位的销售额总量)和变量8(以美分/千瓦时为单位的总的燃料费用),则发现,波士顿爱迪生和联合爱迪生是相似的(小变量6,大变量8),以及亚利桑那公共服务公司、中央路易斯安那电力公司和联邦爱迪生公司是相似的(中等变量6和中等变量8).切尔诺夫脸人们的反应表现在脸上,切尔诺夫(见文献4假定用二维平面的脸来表示力维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,眼晴的大小,瞳孔的位置等等)是由力个变量的测量值所决定的按照最初的设计,切尔诺夫脸可处理多达18个变量.脸部容貌对应的变量的分配是由实
21第1章多元分析概述5(3)中央路易斯安那电气公司(2)波士顿爱迪生公司(1)亚利桑那公共服务公司(5)联合爱迪生公司(纽约)(4)联邦爱迪生公司前5家公用事业公司的星形图1.16验者完成的,不同选择会产生不同的结果.为了取得令人满意的表示常常需要一些重复步骤,切尔诺夫脸对核实以下两点很有帮助:(1)由题材知识和直觉知识提出的最初的分组:(2)由聚类算法产生的最终的分组,例1.12(切尔诺夫脸的实用数据)根据表12.4中的数据,22家公用事业公司的观测值用切尔诺夫脸表示出来.我们得到以下的对应关系:面部特征量变脸的半高度T1固定费用保障比率脸的宽度:资本回报率嘴中心的位置H:每千瓦负载量的费用眼睛的倾斜-4:每年负载因子眼晴的离心率(高/宽)工s:从1974年起高峰期千瓦时需求的增长量眼睛的半长→:销售额总量(每年使用千瓦时)嘴的曲率17:核的百分比鼻子长度-:总的燃料费用(美分千瓦时)图1.17给出了切尔诺夫脸,我们已主观地将“相似的”脸分为7组.如果需要组的数目更少一些,我们可组合5,6和7组,甚至可将2和3组合并最终得到4或5个组由于我们对与脸部容貌对应的变量的分配,公司的分组很大程度是依据地理位置完成构造切尔诺夫脸的工作必须有计算机的帮助.为了确定脸部特征的位置、尺寸和方向,在计算机程序中,通常把数据标准化作为过程的一部分.经过一些练习,我们可用切尔诺夫脸来传达相似性或不相似性,如下面的例子所说明的
22实用多元统计分析1组2组3线S组7组2221154组6组2018191617图1.1722家公用事业公司的切尔诺夫脸例1.13(利用切尔诺夫脸表示整个时期的变化)图1.18显示了切尔诺夫脸的额外的用法(参见文献[247).在图中,脸被用来追踪一个公司在整个时期内的财务情况.如前面所说,每个脸部特征代表个独立的经济指标,而这些指标的纵向变化是如此明显负债时加营运资金盈利性资产周转率OO19751976197719781979时间图1.18整个时期的切尔诺夫脸切尔诺夫脸也被用来显示多元观测值在二维空间中的差异,例如,二维空间的坐标轴可表示经度和纬度(地理位置),脸图可以表示几个美国城市的多元测量值.这一类的其他例子
23第1章多元分析概述见文献[30]中的讨论有许多灵巧的方法可以在二维空间中为多元数据作图.我们已介绍其中几种,利用先进的计算机作图是可能的而且几乎一定会取得更大的进展,1.51距离尽管距离最初显得很难,但大多数多元方法都基于简单的距离概念.直线或欧儿里德距离是我们所熟悉的.如果我们考虑平面上的点P(r1.),从P点到原点O(O.O)的直线距离d(O,P),根据勾股定理,是d(O.P)=r+(1-9)这种情况用图1.19说明.一般的,若点P有P个坐标,则P=(r.,,,),P到原点O=(0.0,,0)的直线距do.P=/x+xx离为-d(O.P)=++.+(1-10)OeX1(参见第2章.)离原点有常数距离的平方(例如)的所有图1.19由勾股定理给出的距离点(文,,)满足方程d(OP)=a+++=(1-11)由于这是一个超球面的方程(当力2时是个圆),与原点等距的点都在超球面上坐标为P=(..….)和Q-(yi·,.y)的任意两个点P和Q的直线距离为d(P.Q)=Va-y)"+(-y)+...+(-y)(1-12)直线或欧几里德距离对大多数的统计目的是不合用的.这是因为每个坐标对于计算欧几里德距离起着相等的作用.当坐标被用来表示不同随机波动幅度的测量值时,经常需要对那些可变性大的坐标加权大大少于对没有很大变化性的坐标的加权,这就需要一个距离的不同的度量.我们现在的目的是导出一个“统计的”距离.这是由于考虑到变差的不同以及相关性的存在.由于我们的选择取决于样本方差及协方差,在这一点上我们用术语统计距离来将它与通常的欧几里德距离区分开,统计距离正是多元分析的基础开始,我们把作出力维散布图的观测值集合看做是固定的.根据这些我们将构造从原点到一点P=(,,…,,)的距离的度量.在我们的论证中,P的坐标(工,,:,工,)可以变化以产生该点的不同位置.然而,确定距离的数据仍然保持固定为举例说明,假设我们有两个变量的n对测量值,X24称两个变量为和并假定变量的测量值关于x的测量值独立地变化.此外,假设测量结果的可变性大于的测量结果的可变性,数据的散布图看上去有点像图1.20中的图片观察图1.20,我们发现,从原点出发向2的方向给定的偏差的值不像从原点向方向等距离的值那样图1.20在x方向上比在x方向上“惊人”或“不正常”这是因为方向内在的可变性大变化性更大的散布图①在这方面,“独立地”意指测量结果不能以任何的精确度预言来自的测量结果,反之亦然
24实用多元统计分析于方向的可变性.因此,大的坐标(用绝对值)不像大的工坐标那样意外.当计算到原点的“距离”时,为坐标加权比为相同数值的坐标加权大一些,看起来是合理的接下来采用的方法是用样本标准差去除每个坐标.因此,被标准差除之后,得到“标准化”坐标=工/s和2=//s.现在这些标准化的坐标相互是在一个等同的基础上.在考虑变异性方面的不同后,我们利用标准欧儿里德公式确定距离因此,从原点O=(0,0)到点P=(11,x)的统计距离可以由它的标准化坐标:/Vs和=/V计算出来.d(O,P)=V(ai)+()六)()+(1-13)比较式(1-13)和式(1-9),我们发现两式的不同是由于式(1-13)中为和增加了权数k,=1/s和k,=1/s22.注意,若样本方差是相同的,ki=k2,则和x将得到相同的权数当权数相同时,忽略公因子,使用普通的欧几里德距离公式是很合适的,换而言之,如果方向的变异性与方向的相同,并且值的变化不依赖x24于的值,欧儿里德距离是适用的,eysn使用式(1-13),我们看到所有到原点的距离的平方为常数的点,设坐标为(a),都满足0/suXcVsu立+丝=(1-14)SuS22c/s2式(1-14)是一个椭圆方程,该圆以原点为中心,长轴和短轴分别与坐标轴重合.也就是说,图1.21常数统计距离的椭圆式(1-13)中统计距离的含义是,到原点距离为某d(O,P)=x/su+x/s2=c常数的所有点的轨迹组成一椭圆.图1.21表示了这种一般情况,例1.14(计算统计距离)两个变量的一组测量值(1,)得出元,=x,=0,S=4和s2=1.假设测量值z,与测量值无关,即一对测量值中任一个量的变化都不依赖于另一个.由于样本方差不相等,我们用丝拉五强坐标:(xx)距离:d(O,P)=4+14T1度量任意点P=(z,x2)到原点O=(0,0)的距离02+12(0,1)=14+1平方.所有到原点固定距离为1的点(,2)满足方程0"(-1)2(0,-1)414+4=12°+0°4(2,0)41距离原点1个单位的一些点的坐标如下表所示:1°+(/3/2)"方程/4十/1=1的图形是一个中心在(1./3/2)4(O.0)的椭圆,它的长轴沿着坐标轴,短轴则