25第1章多元分析概述x24沿着坐标轴.长轴与短轴的半轴长分别为/4=2和=1.单位距离的椭圆在图1.22中画出.椭圆上的所有点到原点有相等的统计距离,在此例中,距离+为1.■式(1-13)可以加以引申来适应计算任意一点-1P=(t)到任何固定点Q=(yi,y)的统计距离图1.22、单位距离的椭圆如果我们假定一个变量坐标的变化独立于另一个,则+=1YP到Q的距离为1[a-y-)d(P,Q)(1-15)su$22这一统计距离公式可直接推广到大于二维的空间中.令点P和Q含有P个坐标,即P一(,,,)和Q一(,,).假设Q是一固定点它可以是原点O一(0,0,,0)且变量坐标的变化相互独立.令s,2p分别是由2,.r,的n个测量值构造的样本方差,则从P到Q的统计距离是(=y(-y)(a2)d(P.Q)(1-16)NSnS22Spp所有到Q的距离平方为某定值的点P分布在XX54一个超椭球面上,其中心为Q,长轴及短轴平行于坐标轴.我们应注意下列几点:1.要得到P到原点O的距离,需对式(1-16)设==0.2.如果51=522$,式(1-12)中的欧几里德距离公式是适用的,由于假设坐标是独立的,式(1-16)中的距离公式仍未包括我们将要遇到的许多重要情况.图1.23的散布图描述了一个二维空间中的测量值的变化依赖于12的情况.实际土,这一对变量(,)的坐标显示出同大或同小的趋势,并且样本相关系数图1.23对正相关测量值和一个是正的.此外,工2方向的可变性大于方向的可旋转坐标系的散布图变性。当方向的可变性与方向的可变性不同并且变量工与工,相关时,什么是有意义的距离的度量?实际上,只要我们用正确的方法观察事物,我们就可以利用已介绍过的方法,从图1.23,我们发现如果在保持散布不变的基础上,将原始的坐标系旋转角并标出旋转过的坐标轴,和元,在新坐标轴下的散布图看起来非常像图1.20中所画的(你可以将书旋转.使,和,轴回到它们通常的位置.)假设我们用和:坐标计算样本方差,用式(1-13)度量距离,即,根据立,和元,轴,我们把点P=(元,,)到原点O=(0,0)的距离定义为五d(O,P):(1-17)NsnS22其中,和s分别表示由元,和的测量值计算出的样本方差
26实用多元统计分析原始坐标()与旋转后所得坐标(,)之间的关系如下=cos(0)+2sin(0)(1-18)=sin(0)+cos(0)根据式(1-18)给出的关系式,我们可以替换式(1-17)中的式和2,用原来的坐标来表示距离.经过一些简单的代数变换,从P=(,)到原点O=(0,0)的距离可以用P的原始坐标和表示为d(O,P)=ana+2aa+ar(1-19)其中α为使得,和x取所有可能取值时,距离都为非负的数.这里,aitai和a22由角决定,且si1,Si2和52是由原始数据计算出来的.此处airsa12和a22的特定形式并不重要的.重要的是非零相关系数riz所需要的交叉乘积项2ati2ziz2的出现.比较式(1-13)与式(1-19),式(1-13)可看做是式(1-19)在au=1/su,a22=1/s22及ai2=0时的特殊情况,一般的,在变量相关的情况下,从固定点Q=(yt.y2)到点P=(r,)的统计距离的一般形式为d(PQ)=Van(-y)+2ai(-y)(-y)+a(-y)(1-20)且当auai及a2为已知时,距离总是可计算出来的.此外,所有与Q的距离平方为常数2的点P=(ai,)的坐标满足an(r)yi)2+2a(()a((1-21)按照定义,这是一个中心在Q的椭圆方程.方程的$24图形如图1.24所示.长轴与短轴被标出来了,它们分别平行于轴与轴。由于选择了脚注中的a.a及az2,和轴相对于和轴成角式(1-19)及式(1-20)的距离公式可直接推广到维空间.设P=(,,.,)为一点,其坐x标表示一组相关且服从内在可变性的变量.O=(0.0,,0)表示原点,Q一(y.2,,)为一指图1.24定的固定点,则P到O和P到Q的距离具有一般到点Q为常数距离的点的椭圆形式d(O,P)Vani+a22++a+2ai+2as++2a--(1-22)?具体地,cos2(0)atrsin"(0)cos(0)s+2sin(0)cos(0)s12+sin(0)522+cos(0)s22-2sin(0)cos()s12+sin2(8)s1sin(0)22cos"(0)cos(0)sn+2sin(0)cos(0)s12+sin(0)s22+cos(0)s2-2sin(0)cos(0)s12+sin(0)scos(o)sin(0)412sin(の)cos()cox(0)s11+2sin(0)cos(0)s1+sin(0)s22cos(0)s22—2sin(0)cos(0)s12+sin*(0)s1)
27第1章多元分析概述和d(P.Q)=[ar(-y)+a(-y)+..+a(y+2a(-y(-y)+2aa)y)++2a-py(yp)2(1-23)其中a为使得距离总为非负的数.①我们注意到式(1-22)及式(1-23)中的距离完全由系数(权数)a#i=1,2,.p,k=1,2,,力,决定.这些系数可在一矩形阵列中表示出来..[ana12aipa12a22.a2p(1-24):Larpapa2p其中系数a(k)出现了两次,这是因为它们在距离公式中被乘了2.因此,这个阵列中的元素确定距离函数.α不能是任意数值,它们必须使得计算出的每一对点的距离都为非负的数(参见练习1.10)由式(1-22)和式(1-23)计算出的定常数距离的轮廓线是一超椭球面,当=3时,超椭球面像一个橄榄球;超过三维时,对其形象化是不可能的,图1.25启发性地说明了需要考虑统计距$24离而不是欧几里德距离.图1.25描述了重心(样本均值)在点Q的一组点考虑从点Q到点P和到原点O的欧几里德距离.Q到P的欧几里德距离大于Q到O的欧儿里德距离然而,P点比原点显得更像是属于这一组点内的点,如果我们考虑到这一组点的可变性,并POX用式(1-20)的统计距离来度量距离,则Q距离oP比距离O要近.这个结果看来合理地给出了图1.25相对于点P和原点的一组点散布的本质。还有一些其他的距离的度量方法(参见练习1.12).有时,考虑不涉及圆或椭圆的距离是有益的.P和Q两点之间的任何距离度量d(P,Q)如果满足下面的性质,都是有效的,其中R是任一个其他中间点:d(P,Q)=d(Q,P)d(PQ>0若P±Q(1-25)d(P,Q)=0.若P=Qd(P.Q)<d(P,R)+d(R,Q)(三角不等式)1.6最终评注我们试图推动多元分析的研究,并为您提供一些组织、概括及展示数据的基本而重要的①式(1-22)和式(1-23)中的距离平方的代数表达式被称为二次型,具体被称为正定二次型用矩阵以一简单形式表示这些二次型是可能的,我们将在2.3节中讲述
28实用多元统计分析方法,此外,还介绍了一个一般性的距离概念,在后面的章节将会反复用到它。练习1.1考虑图1.1中所画的7对测量值(1,z):234268251255.5471057.5计算样本均值元,和2,样本方差31和s2及样本协方差s121.2一家晨报列出一种外国小轿车的二手车价格,车龄以年度量,销售价格以千美元度量:r12334568.9x21118.9519.0017.9515.5414.0012.958.947.496.003.99(a)作数据的散布图及边缘点图.(b)根据散布图推断样本协方差的正负号(c)计算样本均值,和.及样本方差si和s22.计算样本协方差si2和样本相关系数riz.解释这些参数.(d)利用式(1-8)写出样本均值阵列x,样本方差-协方差阵列S,和样本相关阵列R.1.3下面是变量,和工的5个测量值:z92658x21286410X34021求阵列x.S.和R.1.4全球10大公司的收益数据如下:全球10大公司(10亿美元)公司Xi一销售总额×一利润X一资产花旗集团108.2817.051484.10通用电气152.3616.59750.33美国国际集团95.0410.91766.42美洲银行65.4514.141110.46汇丰集团62.979.521031.29埃克森美孚263.9925.33195.26皇家荷兰壳牌265.1918.54193.83英国石油285.0615.73191,11荷兰国际92.018.101175.16丰田摩托165.6811,13211.15资料来源:www.Forbes.com及福布斯集团的《福布斯》杂志(2005年4月18日).(a)为变量和作散布图及边缘点图,并加以解释。(b)计算工15i5225和i解释2
29第1章多元分析概述1.5利用练习1.4中的数据(a)画出(2,)和(1,)的散布图和边缘点图.解释这些图形(b)计算(zi,t2,)的阵列x,S,和R.1.66表1.5中的数据是对洛杉矶地区空气污染变量的42个测量值的记录,这些测量值是在不同日子的中午12点采集的(可参见www.prenhall.com/statistics的空气污染数据)。表1.5空气污染数据风(xi)日光辐射(x2)CO(x))NO(x)NO(x.)0(xo)HC(X)8987212827107439537103435.631088528154691428103890521212498474121555726421144782511111386452139467154103369142127377274181031070421173107241810397741.910387641773871531644967421323969339531062531444988427638804213114530335236835110234884327636784211113879.21710366243983103731723871411073752411284548658436754110243103541692885419102586316122586721318277974925377952862668621114384043652资料来源:数据经G.C.Tiao教授许可使用