子组含量n不大时,应对原始数据加以变换,使之接近正态样本 变换方法参见文献。 笫七节 Bonferroni不等式 在多元质量控制中,为了找出异常工序的原因,要经常对各质 量特性分别地进行显著性检验。 Bonferroni不等式为进行各别统 计检验提供了一种理论根据。 Bonferroni不等式表述如下 假定要对p个分量分别进行检验,令a为检验其中第t个分 量的显著水平,则拒绝一个或-个以上分量的零假设H的总概 率a,要小于或等于各个之和。用数学形式表达,即 a≤a,i=1,2,…,p (1、73) 当各a,都相等时,式(1.39)可写为 即 (1.74) 换句话说, Bonferroni不等式可以表达为 P(A1∩A2自…A2)≥1 (1.75 式(1.75)中A,为第i项质量特性值落在置信界以内的事件。 借助 Bonferroni不等式的t检验、x2检验和F检验,分别称为 调整t检验、调整ⅹ检验和调整F检验。在第二、三章将用到这些 检验方法 显然,不论是什么检验统计量(r,X2,F或其它),也不管显著 性检验是否相关, Bonferroni不等式对于任何有限数目的检验都 是成立的。但是,随着受检随机变量之间相关程度的增大,式 (1.73)、(1.74)表达的不等式偏离等值越远。可以证明,当被检验 的各变量互相独立时,式(1.73)、(1.74)则趋于等式。 因此,对于处理多元随机变量的 Bonferroni不等式可以这样 ·26·
予以评价:如果各分量间高度相关而又必须把各分量作为一个整 体加以裣验时,该不等式几乎没有什么价值;但如果多数分量间的 相关程度不很高,前可以各别地加以检验时,该不等式是很有用 的。在多元质量控制中,一般都属于后者,在给定联合置信度(1 a)后,对失控子组中诸分量进行各别检验时,往往把式(1.73)看 作等式以选择a,。 第八节剔陰多元异常数据的一般方法 如同一元统计质量控制一样,为了提高对异常千扰的检出力 多元工序常按合理子组采样。所谓合理子组,就是子组内变尽量 小,只存在偶然波动而在子组间变异尽量大,能够揭示异常干扰 只有这样,才能把个子组代表的一段工序看成稳定工序,从大量 子组代表的工序整体中检出失控子组,即受到异常干扰的那段工 序显然,为了获得合理子组,必须对子组的数据先进行统计检验。 或由于记录错误、填写错误,或由于采样的总体不同,在多元 子组数据中常混进去若干异常值。这些异常值远远偏离正常的随 机波动范围。数目虽少,但对统计分析结果影响很大。在多元质量 控制中,尽管一个子组往往包括至少10个多至几十个样本,但如 果其中有1个或几个样本数据属于异常,则由此算出的均值向量 和协差阵就会发生很大变化,尤其对协差阵影响极大,甚至使协方 差的符号发生变化。 对于一元情况,常用士3σ原则检出异常值。因为在正态分布 下偏离其均值土3a以上的概率要小于0.0027,有充分理由把这样 的数据看作异常值。当然,对于一元数据,还有一个更简单的方法, 用中位数建立挖制图,因为中位数具有统计的稳健性,不受异常 值影响。但在多元质量控制中,不用中位数,所以不能使用这个方 法排除异常值的影响。自然想到仿照元异常值的剔除办法,对多 元数据分别按元情况逐-用±3σ规则加以检验。但这样的逐一 检验法并不总是有效的因为多元数据等价于同维数空间的向量; 27
一个向量发生显蓍偏倚,并不意味着它的某个分量一定有显著偏 倚,而可能是由若干分量变化趋势异常的综合结果。因此,对于多 元情况,一般不用各别检验法,而用马氏距高法。当子组含量n很 大时,从未知户元总体中一点x到中心的马氏距离这一统计量 服从自由度为p的x分布,即 D2=(X-X)S1(X-X)~ (1.76) 式中(X一X)—p维向量; S→p×p阶协差阵 因此,每一个样本点X到X的马氏距离都对应1个X2,,即对应1 个显著水平a。如果a,很小,比如小于0.05,就可以认为所采子组 中该样本点是异常点。 当然,从一般的x2表上查不到准确的a值。因此,剔除多元异 常数据总是借助计算机完成的。当然也可以手工完成,借助ⅹ2表 用线性内插法或借助本书x2表脚注中给出的公式均可。但计算马 氏距离要用计算机,因此只需在程序中引入x2算式即可自动实 现 下面举一个例子加以说明。如表1.2所列为从某四元总体中 采集了含量为15的一个子组。如单独观察每一个随机变量,第 13号样本并不明显异常。x1,x2,x3,x4的均值依次为114.47, 56.33,17.73,83.13;标准差依次为19.00,8.41,5.62,12.93。第 13号样本中各分量对其均值的偏移量依次为2.1s,1.5s1.6s, 1.94s按 Bonferroni不等式,即使取a=0.05,这些分量的波动也 均在正常范围内。但综合起来看,x1大于其它样本值,而x2,x3,x4 又都小于其它样本值。这样一来,第13号样本点到中心的马氏距 离,就显著地大于其它各点到中心的马氏距离,也就是说第13号 样本点对应的显著水平a远小于其它样点对应的a表1-3是表1 2的计算结果。由于第13号样本点对应的显著水平为0.0203,小 于0.05,可以认为它是一个异常点 28
表12 样本号 x 111 17 46 50 59 5 13 6 150 66 20 118 110 117 59 10 94 67 130 57 118 51 155 58 l 4 118 61 103 66 表1-3 样本号 2.428 0.6576 5.619 0.2291 2.497 0.6452 2.820 0.5883 0.430l 6.264 0.1803 3.772 0.4378 8 2.56l 0.6337 0.178 7.146 0.1284 1.805 0.515 0.9720 1.630 0.0203 2.790 0.5935 2.149 0.7084
如上所述,在多元工序中,为了检出均值向量的异常变化,必 须按合理子组采样;如果子组中混进了异常样本,就应当予以剔 除,并补充采样,以保持子组含量不变。 主要参考资料 〔]张尧庭,方开泰·多元统计分析引论·北京:科学出版社,1982 C23Anderson T. W. An Introduction to Multivariate Statistical Analysis 1958. Wiley [3]Sugiura N. and Nagao H. Unbiasendness of Some Test Criteria for the equality of One or Two covariance Matrices, Annals of Mathematical statistics, V39(1968) 1986-1992 [4]Gannadesikar M. and Gupta S.S. A Selectio 1 Procedure for Multivariate Normal Distribution in 'Terms of the Generalized Variances, Technometrics V12(197() [53Mardia K. V Mcasures of Multivariate Skewness and Kurtosis With applications, Biometrika,V57(1970),519-530 [6)Johnson R. A, and Wickern D. w. Applied Multivariale Statistical Analysis, 2nd ed.(1988),155-16 r7lHarris R.J. A Primer of Multivariate Statistics, 2nd ed (1985),504-506 CR)Stevens J. Applied Multivariate Statistics for the Social Sciences 9-1&.(1988) 30·