10实用多元统计分析的公司,但从每个雇员所创利润看是很“典型的”时代华纳公司在雇员人数方面是很“典型的”,而在人均创利润上则相当的少(负值)由和工的值算出的样本相关系数是0.39对所有16个公司0.56对除邓白氏公司之外的所有公司Ta0.39对除时代华纳公司之外的所有公司0.50对除邓白氏公司和时代华纳公司之外的所有公司显然异常的观测值对于样本相关系数有着相当大的影响,厂例1.4(棒球数据的散布图)1978年7月17日,《体育画报》上一篇关于体育界工资的文章,为=美国东部联盟棒球队为球员发放的工资总额提供了一些数据,我们增加了致=1977年的胜负比的数据.数据由表1.1给出.表1.1关于美国东部联盟棒球队1977年工资和胜负比队运动员工资=胜负比Philadelphia Phillies34979000.623Pittsburgh Pirates24854750.593St.Louis Cardinals17828750.512Chicago Cubs17254500.500MontrealExpos16455750.463New York Mets14698000.395图1.4的散布图支持了一种看法:冠军是可以买来的当然,这种因果关系是无法证实的,因为实验不包括随机的工资总额的分配.因此,统计量无法回答这个问题:如果Mets队有400万美元来支付运动员的薪水,是否就会赢?X240.800比负兰0.40001.02.03.04.0运动员工资(百万美元)图1.4从表1.1得到的工资和胜负比为了构造散布图,例如图1.4,我们把表1.1中的6对观测值看做是二维空间中6个点的坐标.此图让我们直观地检查相对于工资总额和胜负比的分组方法,例1.5(关于纸张强度观测结果的多重散布图)纸是由儿英尺宽的连续薄片制成的,由于纸中纤维的方向性,沿着机器造纸的方向测量的纸的强度,不同于沿着与机器造纸方向交叉或成直角的方向测量的结果.表1.2列出了下
11第1章多元分析概述列变量的测量值表1.2纸张性能测量结果强度标本密度机器方向交叉方向10.801121.4170.4220.824127.7072.4730.841129.2078.2040.816131.8074.8950.840135.1071.2160.842131.5078.3970.820126.7069.0280.802115.1073.1090.828130.8079.28100.819124.6076.48110.826118.3170.25120.802114.2072.88130.810120.3068.23140.802115.7068.12150.832117.5171.62160.796109.8153.10170.759109.1050.85180.770115.1051.68190.759118.3150.60200.772112.6053.51210.806116.2056.53220.803118.0070.70230.845131.0074.35240.822125.7068.29250.971126.1072.10260.816125.8070.64270.836125.5076.33280.815127.8076.75290.822130.5080.33300.822127.9075.68310.843123.9078.54320.824124.1071.91330.788120.8068.22340.782107.4054.42350.795120.7070.41360.805121.9173.68370.836122.3174.93380.788110.6053.52390.772103.5148.93400.776110.7153.67410.758113.8052.42资料来源:数据经SONOCO制造公司许可使用
12实用多元统计分析三密度(克/立方厘米)工强度(磅):沿机器方向3=强度(磅):沿交叉方向种新颖的图形用来表示这些数据,见图1.5.散布图作为协方差阵列的非对角线元素,而盒形图作为对角线元素.用这一方法后者有不同的标度,故我们只用总的形状对称性给出信息,并为每个单独的特性提供可能的离群值,可对图形和异常的观测值来观察散布图.在图1.5中,有一个异常的观测值:样本25的密度.某些散布图表明,其观测值是相互分离的两簇.阵列的这些散布图将在下一节中新的软件图解方法的讨论中还会涉及,■密度强度(机器方向)强度(交叉方向)Max.0.97Med0.81Min0.76Max135.1..Med121.4.Min103.5Max80.33Med70.70Min48.93图1.5来自表1.2的纸张性能数据的散布图和盒形图在一般的多种响应的情况下,力个变量同时进行n项记录应该为几对重要的变量作散布图,并且如果工作量没有大到得不偿失,应该对每一对变量作图由于我们被限定在一个三维世界,我们经常无法描述整个的数据集合,然而,两种进一步的数据儿何表示为观察多元统计方法提供了一个重要的概念框架。假如在三维空间捕捉到数据的本质是可能的,就可以用实际图形表示,p维空间中的n个点(p维散布图)考虑将散布图自然地扩展到p维空间,其中力个观测结果(TT2,",a)表示一个点在力维空间中的坐标在第,项的值.每个坐标轴与变量相对应,则第个点沿着第一个坐标轴是,个单位,沿第二个坐标轴是工个单位,,沿第p个坐标轴是工个单位的点。由此得到的有n个点的结果的图形不仅显示了变异性的总的模型,而且会显示出n项中
13第1章多元分析概述的相似(和不同)之处.项目的分组会在这个表象中表现出来下面的例子说明三维散布图例1.6(寻找降维结构)位动物学家得到了n=25组蜥蜴的数据.其重量(体重)的单位为克,嘴到排泄口的体长(SVL)和后肢跨距(HLS)的单位为毫米,表1.3中列出了对应的数据表1.3蜥蜴数据蜥蜴体重SVLHLS蜥蜴体重SVLHLS15.52659.01410.06773.0136.5113.521510,40175.0142.010..09173.0135.531677.09.21369.0124.010.888139.01761.548.95367.5125.07.610118.05187.06362.0129.57.73366.5133.56.6.61062.0123.01912.01579.5150.072074.011.27374.0140.010.049137.021847.097.05.14959.5116.02.44792268.015.49386.5162.09.158123.02312.132141.0109.00469.0126.575.011248.19970.5136.06.97866.5117.025126.60164.5116.06.89063.0117.0137.62267.5135.0资料来源:数据经KevinE.Bonine许可使用.尽管有3种大小的测量数据,我们感兴趣的是大部分的变化是否都基本限制在二维甚至于一维空间上,为了回答上面关于降维的问题,在图1.6中我们画出了数据的三维散布图.很明显大部分的变化都集中在一条一维的直线上,知道了沿这些点的主轴直线的位置,也就大致知道了这三维数据(重量、SVL和HLS)的情况可是,如果在一个变量的变化比其他的变化大得多的情况下,这种分析会误导大家.所以,我们首先要将数值标准化,即二(工一元)/,这样各个变量在散布图中有相同的作用.图1.7为标准化后变量的散布图,大部分的变化都能被由这些点决定的直线所对应的单个变量来解释.152.1-101·:0-5-155051.5135500511560270HLS950180ZHLS1902SVLESVL图1.6表1.3的蜥蜴数据的三维散布图图1.7标准化后数据的三维散布图
14实用多元统计分析一个三维散布图通常能用来揭示群组结构,例1.7(三维情形下群组结构的搜寻)参见例1.6,考虑雄性蜥蜴和雌性蜥蜴在三维数据空间中是否占据空间的不同部分,是很有趣的.表1.3中对应的数据中,蜥蜴的性别(用行表示)分别为fmffmfTmmfmfmmfmmmffmmmTf图1.8重复了原来的数据散布图,只不过这里用空心点表示雌性,用实心点表示雄性.显然,雄性的体型一般都比雌性的要大,。fm15410.g51551355060115HLS70809590SVL图1.8雄性和雌性蜥蜴的三维散布图■n维空间中p个点点个变量的n个观测结果也可看做是n维空间中的个点.X的每列确定其中的一个点.由第i个变量的所有n个观测值组成的第列确定了第个点uT2:T在第3章中,我们将介绍n维空间中点的封闭性如何与相关变量之间联合的测量相联系,1.4#数据的展示及图表示强大的个人电脑与计算机工作站的迅速发展,导致为数据分析和图解法而设计的复杂统计软件增加.例如,坐在书桌前就能通过灵巧的计算机生成的图片来观察多维数据的本质,这已是可能的,这些图片对于了解数据极有帮助,并常常防止许多错误的出现以及随后的推理上的问题,正如我们将在第8章和第12章看到的,有许多方法企图用不多的维数表示p维观测值,使得每对观测值的初始距离(或相似性)几乎保持不变,一般的,如果多维观测值可以表现在二维空间中,则离群值、各种关系及可辨别的分组常常可以用眼晴辨别.我们将讨论并说明儿种在二维空间中显示多元数据的方法.关于对图解法的更多讨论的优秀初始资料见文献[11]