VII实用多元统计分析10.2典型变量和典型相关系数42010.3总体典型变量的解释,42410.4样本典型变量和样本典型相关系数42710.5其他样本描述性度量43410.6大样本推断438练习440参考文献446第11章判别与分类44811.1引言44811.2两个总体的分离与分类44811.3两个多元正态总体的分类45411.4评估分类函数46311,5多个总体的分类47111.6对多个总体进行判别的费希尔方法48311.7逻辑斯蒂回归与分类49311.8最后的评述500练习504参考文献522第12章聚类、距离方法与多维标度变换52412.1引言52412.2相似性量度.52512.3分层聚类方法53112.4非分层聚类方法54212.5基于统计模型的聚类54812.6多维标度变换55112.7对应分析...55712.8用于观察抽样单元和变量的双重信息图·56512.9普罗克鲁斯特斯分析:一种比较点结构的方法570补充12A数据挖掘:574练习579参考文献585附录587
第章tatisticalInalysisppliedultivariate多元分析概述1.1引言科学研究是一个反复学习的过程.首先必须指定一些与某种社会现象或自然现象有关的解释作为目标,然后通过收集数据和分析数据对这些目标进行检验.对通过实验或观察收集来的数据进行分析之后,人们通常会对现象提出一个改进的解释。在这个反复学习的全过程中,往往有些变量会被增添到研究中去,有些则会被剔除.因此大多数现象的复杂性要求研究人员去收集许多不同变量的观测值,本书讨论能从这几类数据集中获取信息的各种统计方法.由于这些数据包含许多变量的同时测量值,所以这一类方法称为多元分析,人们需要了解许多变量之间的关系,这就使多元分析必然成为一个困难问题。因为一方面人的头脑常常被一大堆数据弄得不知所措:另一方面,供推断用的多元统计方法的推导却比在一元情形下需要更多的数学知识.我们选择的做法是只提供基于代数概念的解释,避开需要用到多元微积分学的统计结果的推导,我们的目标是以一种清晰的方式,利用大量说明性的例子和最低限度的数学,向读者介绍几种有用的多元方法.不过某些数学上的复杂知识仍是需要的,也要求读者具有进行定量思考的愿望我们的主要侧重点在于对那些不受控制或操纵的变量所提供的测量值进行分析,只是在第6和第7两章中,我们才处理少数几个实验设计方案,以产生人们主动操纵重要变量时才会出现的数据.尽管实验设计通常是一项科学研究中最重要的部分,但要在某学科中控制适当数据的生成通常是不可能的,(情况的确是这样,例如在商业、经济学、生态学、地质学及社会学中就是如此.)实验设计原理的详情可参考文献[6]和[7],幸运的是,这些文献的内容也适用于多元情形许多多元方法的基本依据是一种被称为多元正态分布的基本概率模型,这点以后将看得越来越清楚.另一些方法就性质而言属于特殊方法,其正确性要由逻辑或常识方面的论据来证明.无论多元方法的来源如何,都必须在计算机上实现.计算机技术的最新进展已产生出一些相当复杂的统计软件包,从而使实现步骤变得比较容易。多元分析是一个“混合包”很难为多元方法建立一个分类体系,使之既能被广泛接受,又能指明这种方法的合适性.有一种分类法可将旨在研究相互依赖关系的方法同旨在研究从属关系的方法区分开来另一种方法则根据所研究总体的个数及变量集的数目对多元方法进行分类.本书根据各种处理均值的推断、协方差结构的推断以及分类或分组技术来对各章进行分节.但决不应将这种做法看成是试图将每一种方法定位.相反,方法的选择和分析类型的采
2实用多元统计分析用很大程度上取决于研究目标.在1.2节中我们列出少量实际问题,用以说明统计方法的选择与研究目标之间的联系,这些问题加上书中的例子将对多元方法在不同领域的适用性提供正确评价。多元方法能最自然地发挥作用之处,便是下列科学研究目标:1.数据简化或结构简化在不损失有价值信息的情况下尽可能简单地将被研究的现象描述出来.希望这样能使解释变得容易些。2.分类与分组根据所测量的特征将一些“类似的”对象或变量分组.另外,或许需要一些分类规则,以便将对象归人明确定义的各组。3.变量间依赖性的研究人们对变量间关系的本质感兴趣,是否所有变量都相互独立?还是有一个或多个变量依赖于其他变量?如果是后者,那又是怎样依赖的?4.预测为了根据某些变量的观测值预测另一个或另一些变量的值,必须确定诸变量之间的关系5.假设的构造与检验对以多元总体参数形式陈述的多种特殊统计假设进行检验.这样做可以验证某些假设或增强事先建立的信念我们引用F.H.C.马里奥特(Marriott)的一段话为多元分析做一简要的综述(参见文献[19).这段话是在讨论聚类分析时说的,不过我们觉得它适用于更多的方法,无论何时,在你尝试或阅读某种数据分析方法时,应该记住这一点.它可以使你保持正确的眼光,不致被理论中某此漂亮词句所左右要是所得结果与你所获悉的看法不一致,不要接受一个简单的逻辑解释,也不要在某种图形表示中清楚显露出来,因为这些结果可能是错的.数值方法并非魔术,招致失败的原因有很多.它们对数据解释来说不过是有用的帮手,不是能将大量数字自动转变成一组科学事实的碎肉灌肠机,1.2多元方法的应用有关多元方法应用的出版物近年来有了惊人的增加.现在已很难像本书先前那些版本那样用简短的讨论来概括这些方法各式各样的实际应用了,然而,为了说明多元方法的实用价值,我们对来自若干学科的研究成果作一个简要介绍.所介绍的内容是依据前一节中给出的目标类别组织的.当然,我们的许多例子具有多面性,可适用于一个以上的类别。数据缩减或简化用一些进行放射治疗的癌症患者的变量数据构造一个进行放射治疗的患者的简单测量法(参见练习1.15).·用许多国家和地区的径赛运动记录为男女运动员建立一个成绩标准(参见文献[8]和[22]].·由高精度扫描仪获得的多光谱图像数据被简化成一种形式,可被看做是一个二维的海岸线的图像(参见文献23)。利用与产量及蛋白质含量有关的几个变量的数据,建立一个选择母体的标准以改善下儿代豆类植物(参见文献[131)·由职业仲裁人获得的数据所导出的策略相似性矩阵.通过这个矩阵,可帮助职业仲裁人确定评价解决争端所用策略的维数(参见文献[21])
3第1章多元分析概述分类与分组·使用与计算机用途有关的几个变量的数值,按计算机工作的类型分成几组,以便更好地决定如何利用现存的(或计划的)计算机资源(参见文献[2])。一些生理学的变量的测量值可用来产生一种筛选法将酗酒者与不酗酒者区分开(参见文献[26]】·有关对视觉刺激的反应的数据可用来形成一条规则区分由多发性硬化症引起的视觉疾病患者与未曾患病者(参见习题1.14)·美国国内税务署根据从所得税申报单上收集的数据,将纳税人分为两类:需要进行审计的和不需要审计的(参见文献[31)变量间依赖性的研究几个变量的数据被用来识别令委托人成功地雇用外来顾问的因素(参见文献[12]).。对于创新以及商业环境和商业组织的有关变量的测量,使我们可以发现为什么一些公司实现了产品创新,而另一些公司却没有(参见文献[37)·对于纸浆纤维和用其所生产的纸的特征的测量,可被用来研究纸浆纤维和所生产出的纸张的性质之间的关系,目的是确定生产高质量纸张所需的纤维(参见文献[17]].·对高水平企业经理的冒险倾向的测量与社会经济学特性的测量结合起来,以评估冒险行为与个人业绩间的联系(参见文献[18)预测·利用考试得分以及几个高中成绩变量与几个大学成绩变量之间的联系,构造用来预测在大学里会成功与否的指标(参见文献[10])·关于沉积物分布尺寸的几个变量数据可用来建立预报不同的沉积物的周围环境的规则(参见文献7和20)·利用会计财务方面的变量的测量值,可构造识别潜在的无偿还能力的财产保险公司的方法(参见文献[28].·cDNA微序列实验(基因表示数据)越来越广泛地用于研究癌肿瘤中的分子变化情况肿瘤的可靠分类方法对成功的诊断和治疗癌症起着本质的作用(参见文献[97)假设检验·测量一些与污染有关的变量,以确定一个大城市地区的污染程度是在一周中大致保持不变,还是在工作日与周末之间会有明显的不同(参见练习1.6)。用几个变量的实验性数据可看出,教育的性质是否造成发觉风险的任何差异,由测验分数来度量(参见文献[27])·利用众多变量的数据来研究美国职业结构的差别,以决定支持两个对立的社会学理论中的哪一个(参见文献【16]和[25])·利用几个变量的数据来确定在新兴工业化国家中不同类型的公司是否呈现出不同的改革模式(参见文献15)前面的描述使我们看到了多元方法在各种领域中的广泛应用
4实用多元统计分析1.3数据的组织在本书中,我们将分析由几个变量或特征构成的测量值.这些测量值(通常称为数据)常常必须以不同方式排列和显示.例如,曲线图和列表方式是数据分析的重要手段.概括数字可定量地描绘数据的某些特征,对于任何描述都是必要的现在我们介绍一些初步的概念,作为数据组织的第一步,阵列每当一个研究者试图了解一个社会现象或自然现象时,他会选择力P≥1)个变量或事物的特征来进行记录,从而出现多元数据.对每个个别的项目、个体或实验单元,这些变量的值都被记录下来,我们将用记号表示第个变量在第项上或第次试验中的观测值,即第个变量的第项测量值-因此,力个变量的n个测量值可以表示如下:变量1变量2变量k变量力...项目1:i..2..TiTip项目2:X21.i2X2k.I2p::1::项目j:3jtTi2.TTip..1项目n:auTM.....TwEJnp或者我们可用一个有"行p列的矩形阵列来表示这些数据,称为X[...X12T.Tip.X21X22.T2h32p:目目.X:X2.XjTACip目::1TXi2Tnk..a于是,阵列X包含了全部变量的所有观测值。例1.1(一个数据阵列)从一所大学的书店选出四张收据来了解书籍的销售情况.每张收据提供了售书数量及每笔买卖的总金额.用第一个变量表示总销售金额,第二个变量表示售出书的数量.然后我们可将收据上相关数据看做是这两个变量的四组测量值.假定数据如下所示:变量1(销售金额):42524858变量2(书的总数):4543用我们刚才引人的记号,就有u=422=52X1=483=581i2=4122=5332=4142=3而数据阵列X由4行2列组成,即