15第1章多元分析概述多种二维散布图的联系在许多令人兴奋的新的图解法中,有一种是用计算机来联系众多二维散布图。例1.8(散布图的联系及刷亮)参看表1.2的纸张性能数据,我们来说明二维散布图的联系.这些数据表示了三个变量与机器交叉方向的强度.图1.9显示了的测量值一密度,工2一沿机器方向的强度;工个3×3阵列,由每对变量做成的二维散布图组成.例如,图中左上角那个图片是由(zi:)这对观测值做成的散布图即,的值是沿着水平坐标轴绘图,而的值则沿着垂直坐标轴绘图.图中右下角的散布图是由(工,3)这对观测值做成的,将坐标轴颠倒一下即成.图中其他维排列在框图中表示时是沿着西南-东北对角散布图的相应说明也成立.注意变量及它们的线方向的.将图1.9的()散布图中明显的离群值做出标记(选择出)·产生了图1.10(a)离群值被标为样本25,同-一个数据点在所有的散布图中被突出标示.可发现样本25也以离群值出现在(,)的散布图中,但不是(2,)的散布图的离群值.删掉这个样本形成改变后的见图1.10(b)散布图80.3交叉方向(x)48.9135S.机器方向州(s)1040.971密度(x)::0.758图1.9表1.2纸张性能数据散布图从图1.10中,我们注意到,在(,)散布图中一些点看起来与其他的点没有联系.用个虚线矩形框将这些点框起,在其他所有散布图中高亮显示这些选中的点,如图1.11(a)所示.进一步检查显示出样本16~21.样本34及样本38~41实际上是从一卷旧纸中选取的样本,它们是为了使生产的卡纸板有足够的厚度.删除离群值及与旧纸相关的点,调整剩下的观测值的排列.得到图1.11(b)中的散布图.高亮显示对应于一个变量散布图中被选中的区域的点,称为刷亮.刷亮可以从一个矩形开始,如图1.11(a),然后,刷子可以移动给出一个高亮显示点的序列.这个过程可在任何时候■停止,以得到一个当前情况的瞬态。像例1.8中的那种散布图对数据分析非常有帮助.另一个新的重要的图解法使用了计算机软件,使数据分析者可用种种不同的三维透视图来观察高维数据.这可以动态地、持续地进
16实用多元统计分析热80.3#2525交叉方向(x3).48.913532525机器方向1.(x2)1040.9712525密度(x)..4..0.758(a)热80.3交叉方向(x3).".48.9135.A机器方向(x2).1040.971密度(x)d.:0.758(b)图1.10纸张性能数据的改进散布图(a)选择离群值(25):(b)删除离群值(25)行直到获得足够的信息.关于动态图解法的全面讨论可参见文献[1.关于与主机联在一起工作的多元探测图解分析的一个策略参见[32],该策略的动机是为了得到一个可寻找多元数据结构的常规程序例1.9(在三维空间作图)第4章中的表4.3给出了木材硬度的四个不同测量值.在例4.14中,样本(木板)16及可能样本(木板)9被标为异常观测值.图1.12(a),(b)和(c)显示出硬度数据在z,2,空间上
17第1章多元分析概述80.3交叉方向(x3)."48.91351机器方向r(x2)..1040.971密度(an)40.758(a)80.3交叉方向(x3)68.1135机器方向(x2)1140.845密度(x)0.788(b)图1.11改进的散布图对(a)选择的点的组和(b)删去标本25在内的诸点,并重画散布图的透视图.这些视图是通过连续地旋转及转换三维坐标轴得到的.旋转坐标轴我们可得到对数据的三维外观的更好的了解。图1.12(d)给出硬度数据在工2,,工空间的图片.注意到图1.12(a)和(d)清楚地证实了样本9和16像是离群值.样本9的数值在所有的三维坐标中都非常大.把图1.12(a)的坐标轴逆时针旋转得到图1.12(b),两个异常的观测值在这个视图中被屏蔽了.进一步旋转坐标轴r2得到图1.12(c):此时离群值之一样本16隐藏起来,通过对这些缓慢旋转的数据进行目测有时可获得额外的认识,统计学家们对这种动态的方式刚刚才开始了解和利用。口
18实用多元统计分析.161L916.9X3X(a)离群值清晰(b))离群值被屏蔽.916S9.X(c)样本9大(d)x2.x3.x4空间的有效视图图1.12对木材硬度数据的三维透视像图1.12这样的图使我们可以迅速地识别出那些与其他数据不一致的观测值和可能会严重影响到基于标准数据生成模型所得推论的观测值,生长曲线图如果在每年生日的时候都测一下小孩的身高,然后将点画出来,连接成图.这就是一个典型的生长曲线图。一般来说,如果测量值随着时间有上升、下降或者既有上升又有下降的情况,我们就在相同的单位和对象下,可以重复测量该值,得到生长曲线图。例1.10(生长曲线阵列)阿拉斯加渔业和狩猎部门为了保持灰熊健康的种群量,对灰熊实施监测.熊被催眠针催眠然后挂在三脚架上测量它们的体重,并用钢卷尺测量它们的身长,表1.4中给出了7只母熊在2,3,4和5岁时的体重(简记为Wt,单位:公斤)和身长(简记为Lngth,单位:厘米)的数据。表1.4母熊数据熊序号W12Wt3Wt4Wt5Lngth2Lngth3Lngth4Lngths148599582141157168183259681021021401681741703617793107145162172177454431041041461591761715100145185247150158168175668829511814214017818916895109111139171176175资料来源:数据经H.Roberts许可使用
19第1章多元分析概述首先,对每只熊,我们描出体重对年龄的图然后用直线连接,这样能够近似给出生长曲线图.图1.13是所有7只熊的生长曲线图.很明显的是,第5只熊相对于其他来说有很大不同.这是外族还是自然变异的?在野外,熊的体重是用磅来度量的.进一步的观测表明,这种情况是由于助手在建立电子数据库时,没有将单位换算成公斤,正确的体重为(45,66,84,112)公斤250200通150本10050F3.52.02.53.04.04.55.0年龄图1.137只母灰熊体重的联合生长曲线列因为在一个联合生长曲线图上观测个体变化很难,于是可以逐一画出一系列单个生长曲线,这样相似性和差别都能够很容易地观测出来.图1.14给出了7条体重生长曲线.有些体重生长曲线是线性的,有些是二次的熊1熊2熊3熊4150150150150-10010100重100体50505050-0-12234523423452345年龄年龄年龄年龄熊5熊6熊7150150150重100重10010体体50-5050000-23452342345S年龄年龄年龄图1.14单个母灰熊体重的生长曲线列图1.15给出了单个母灰熊身长的生长曲线列.有一只熊好像在第2年到第3年变得越来越短了,但是研究人员知道,测量身长用的卷尺会由于打了镇静剂的熊的姿势脱落,进而导致结果的偏差,现在我们转向多元数据在二维空间中的两个常见的图示表示法:星形和切尔诺夫脸