Lec12:非参数统计方法 张伟平 May4,2011 §1一样本问题中的非参数假设检验 在上一章我们讨论了当总体分布族是正态情形,关于均值得一样本检验方法.但是,当 我们无把握认为总体分布族为正态模型时,则必须用其它方法来检验.下面介绍几种常用的 非参数方法,即符号检验法、符号秩和检验法和Fisher置换检验法。 一、符号检验法 例1为比较甲乙两种酒的优劣,找了N个人去品尝.同一个人品尝两种酒后,请他们分 别给两种酒评分.这里,每一个品酒人对甲、乙两种酒的评分结果构成一个对子,正好是一 个成对比较的模型. 以X,记第个品酒人对甲酒的评分,Y:记第个品酒人对乙酒的评分.记Z=X:-Y,i= 1,…,N如果假定Z~N(μ,σ2),则甲、乙两酒是否有优劣的问题将转化为原假设Ho:μ=0 的检验问题,这就是我们在$5.2讨论过的一样本t检验问题.可是在一些情况下,我们不见得 有根据去假定Z:服从正态分布.这时上述方法就失效了.下面是一个替代方法:每一个评就 人的评分给出一个符号 若Z>0 若Z:<0 (1.1) 若Z:=0 即品就人给以“+”号表示他认为“甲酒优于乙酒”,另两个符号的意义类推.如此,我们得 到n个符号S1,·,Sm原假设 Ho:甲乙两种酒一样好 (1.2) 的检验就建立在试验结果的这n个符号的基础上,故称为符号检验(Sig即Tst).下面将会看到: 从统计模型而言,符号检验不过是二项分布参数检验的一个特例.符号检验的具体方法如下: 记N个试验结果S1,·,Sn中“+”号的次数有n+次,出现“-”号的有n_次,其余为0, 记n=n++n-如果Ho成立,即甲乙两种酒一样好,则在n个非0结果中出现“+”或“-”的 机会相同.即每个非0试验结果中出现“+”号的概率p=1/2:若甲、乙两酒确有优劣之分,则 每个非0结果中出现“+”的概率p≠1/2.若记X=n+, 放在这个情况下,n4的分布服从b(n,1/2),若甲乙两种酒确有优劣之分,则每个结果出现 “+”号的概率p≠1/2.则所提问题转化为检验问题:X二项分布b(n,p),0≤p≤1,要检验 :p=专一:P千分 1 (1.3)
Lec12: öÎÍ⁄Oê{ ‹ï² May 4, 2011 §1 òØK•öÎÍbu 3˛òŸ·Ç?ÿ oN©Ÿx¥ú/, 'u˛äòtuê{. ¥, ·ÇÃrº@èoN©Ÿxè.û, K7L^Ÿßê{5u. e°0A´~^ öÎÍê{, =Œ“u{!Œ“ù⁄u{⁄FisheròÜu{" ò!Œ“u{ ~1 è'`ظ´À`, È Ná<¨}. ”òá<¨}¸´À, û¶Ç© O⸴Àµ©. ˘p, zòá¨À<È`!ظ´Àµ©(J§òáÈf, –¥ò á§È'.. ±XiP1iá¨À<È`Àµ©, YiP1iá¨À<ÈØÀµ©. PZi = Xi − Yi , i = 1, · · · , N.XJb½Zi ∼ N(µ, σ2 ),K`!ظÀ¥ƒk`ØKÚ=zèbH0 : µ = 0 uØK, ˘“¥·Ç3§5.2?ÿLòtuØK. å¥3ò ú¹e, ·ÇÿÑ kä‚b½Zi—l©Ÿ. ˘û˛„ê{“î . e°¥òáOìê{: zòᵓ <µ©â—òጓ Si = + eZi > 0 − eZi < 0 0 eZi = 0 (1.1) =¨“<â±/+0“L´¶@è/`À`uØÀ0, ,¸áŒ“ø¬aÌ. Xd, ·Ç nጓS1, · · · , Sn.b H0 : `ظ´Àò– (1.2) u“Ô·3£(J˘nጓƒ:˛, °èŒ“u(Sign Test).e°Ú¨w: l⁄O. Û, Œ“uÿL¥ë©ŸÎÍuòáA~. Œ“u‰Nê{Xe: PNá£(JS1, · · · , Sn•/+0“gÍkn+g, —y/−0“kn−g, Ÿ{è0. Pn = n+ + n−.XJH0§·, =`ظ´Àò–, K3náö0(J•—y/+0½/−0 Ũɔ. =záö0£(J•—y/+0“V«p = 1/2;e`!ظÀ(k`É©, K záö0(J•—y/+0V«p 6= 1/2. ePX = n+, ò3˘áú¹e, n+©Ÿ—lb(n, 1/2),e`ظ´À(k`É©, Kzá(J—y /+0“V«p 6= 1/2. K§JØK=zèuØK: X멟 b(n, p), 0 ≤ p ≤ 1,áu H0 : p = 1 2 ←→ H1 : p 6= 1 2 . (1.3) 1
一个合适的检验为 当|X-n/2>c时否定Ho 临界值c要根据给定的检验水平α,由二项分布来决定(见附表10).为使a为真实水平,必要时 用随机化检验.一个更确当的方法是计算检验的p值(见S5.3,四).在此,令由样本S1,·,S算 得的X=n+的具体值为xo,记x=min{xo,n-xo},则检验的p值为 -()”+三(份() (1.4) 若n为偶数,而xo=n/2,则取p值为p=1.p值越接近1,则H越可信.如给定检验水平a,则 当p<a时否定Ho. 在例1中,给定检验水平α,则检验问题(1.2)的否定域为 {X=n4≥c,或X≤d 其中c和d的值由下式确定: 2()份)s d=n-c. 在例1中,令N=13,S1,·,S13中+号和-号的个数分别是n4=2,n-=10,因此n= n++n_=12.取检验水平a=0.05,查附表10“符号检验临界值表”得c=10,故d=n-c=2.故 检验的否定域D={X=n+≥10,或X≤2}.检验统计量X=n+=2,因此否定原假设.即 认为甲、乙两酒不一样 对这一检验问题,也可通过计算检验的p值来解决.此处,n=12,x0=n+=2,按(1.4), %=min(2,12-2)=2,查二项分布表得 -())”+(留)( =0.0384<0.05 故在0.05显著性水平下应否定H0 例2 工厂的两个化验室,每天同时从工厂的冷却水总取样,测量水中的含氯量一次 下面是n=11天的记录: 2 345678910 11 1.151.860.761.821.141.651.921.011.120.901.40 h1.001.900.901.801.201.701.951.021.230.971.52 其中x:表示化验室A的测量记录,:表示化验室B的测量记录.问两个化验室测定的结果之间 有无显著差异?取a=0.10. 解分别记化验室A和B的测量误差为和7.设和,为连续型随机变量,其分布函数分别 为F(x)和G(x)检验问题是 Ho:F(x)=G(x)←→H1:F(x)≠G(x) (1.5) 3
òá‹·uè |X − n/2| > c ûƒ½ H0. .äcáä‚â½uY²α, d멟5˚½(ÑNL10). è¶αè˝¢Y², 7áû ^ëÅzu. òáç(ê{¥Oéupä(ѧ5.3,o). 3d, -dS1, · · · , Sné X = n+‰Näèx0,Px 0 0 = min{x0, n − x0},Kupäè p = x 0 X0 i=0 n i 1 2 n + Xn i=n−x0 n i 1 2 n (1.4) enèÛÍ, x0 = n/2,Kpäèp = 1. päC1, KH0å&. Xâ½uY²α,K p < αûƒ½H0. 3~1•,â½uY²α,KuØK(1.2)ƒ½çè {X = n+ ≥ c, ½ X ≤ d}, Ÿ•c⁄däde™(½: Xn i=c n i 1 2 n ≤ α 2 , d = n − c. 3~1•,-N = 13, S1, · · · , S13•+“⁄−“áÍ©O¥n+ = 2, n− = 10,œdn = n+ + n− = 12.uY²α = 0.05,NL10/Œ“u.äL0c = 10,d = n−c = 2. uƒ½çD = {X = n+ ≥ 10, ½ X ≤ 2}.u⁄O˛X = n+ = 2, œdƒ½b. = @è`!ظÀÿò. È˘òuØK, èåœLOéupä5)˚. d?, n = 12, x0 = n+ = 2,U(1.4), x 0 0 = min(2, 12 − 2) = 2,멟L p = X 2 i=0 12 i 1 2 n + X 12 i=10 12 i 1 2 n = 0.0384 < 0.05 30.05wÕ5Y²eAƒ½H0. ~2 ÛǸázø, zU”ûlÛÇe%Yo, ˇ˛Y•¹Å˛òg. e°¥n = 11UP¹: i 1 2 3 4 5 6 7 8 9 10 11 xi 1.15 1.86 0.76 1.82 1.14 1.65 1.92 1.01 1.12 0.90 1.40 yi 1.00 1.90 0.90 1.80 1.20 1.70 1.95 1.02 1.23 0.97 1.52 Ÿ•xiL´zøAˇ˛P¹, yiL´zøBˇ˛P¹. ظázøˇ½(JÉm kÃwÕ…? α = 0.10. ) ©OPzøA⁄Bˇ˛ÿèξ⁄η.ξ⁄ηèÎY.ëÅC˛, Ÿ©ŸºÍ©O èF(x)⁄G(x).uØK¥ H0 : F(x) = G(x) ←→ H1 : F(x) 6= G(x). (1.5) 2
显然含氯量的测定值,除了与化验室的不同有关外,还与当日水中含氯量的多少有关.我 们可以认为X:和Y具有数据结构: X=+5,Y=4+i,i=1,2,…,n. 其中山,为第天水中的含氯量,:和n:分别表示第天化验室A、B的测量误差.显然51,·,m 和1,·,m都是不可观察的独立同分布的随机变量。前者与ξ~F(x)同分布,后者与)~ G(x)同分布 不同日的两个数据X:与Y显然不一定是同分布的,而且X:与X,以及Y与Y也不一定 是同分布的.它们之间的差异不但与测量误差有关,而且也与山:和4的差异有关.因此虽 然X1,…,Xn相互独立,但不能假定它们同分布,Y,·,Y也是如此.所以两样本的统计比 较方法,如两正态样本的检验方法以及后面要介绍的两样本非参数检验方法都不能用于这 类数据的检验工作.我们在S5.2中也提到过成对数据的上述特点. 处理成对数据检验问题,很自然地想到如何把:的影响消除掉.由于对每个i,X,与Y之间 可比,若将同一天的两个数据相减,从而把的影响消除掉.令 Z=Xi-Y=5-7i,i=1,2,…,n. (1.6) 显然Z仅与化验室A、B在第日的测量误差之差有关.记Z=-n,则Z1,·,Zn可看成来自 总体Z的随机样本,即Z1,·,Zm是独立同分布的样本.由于Z是两个测量误差之差,因此Z的 均值为0,且可证明它是关于原点对称的, 令n+为Z1,·,Zn中取正值的个数,n-为Z1,…,Zn中取负值的个数,它们都是r.v由于 假定了和n是连续型随机变量,故Z1,·,Zn中取值为0的个数以概率为1取0.因此可记n= n++n_当Ho,即(1.5)成立时,则在n个试验单元中Z,取“+”和取“-”的可能性皆为.因此 检验问题转化为:n+~b(n,p),0≤p≤1,检验 B:n-专一所:p≠对 否定域D={n+≥c或n+≤d. 因此,在给定显著性水平α之后,c和d的值由 三月”号 d=n-c 所确定 在本例中n=11,a=0.10,查二项分布表知 () 11 =0.0327, 0 () 11 =0.113, =0 所以d=2,c=11-2=9(也可查附表10得c=9,d=n-c=2).故水平a=0.10的符号检 验的否定域为 {n+≤2或n+≥9} 2
w,¹Å˛ˇ½ä, ÿ Üzøÿ”k' , ÑÜFY•¹Å˛ık'. · Çå±@èXi⁄Yi‰kÍ‚(: Xi = µi + ξi , Yi = µi + ηi , i = 1, 2, · · · , n. Ÿ•µiè1iUY•¹Å˛, ξi⁄ηi©OL´1iUzøA!Bˇ˛ÿ. w,ξ1, · · · , ξn ⁄η1, · · · , ηn —¥ÿå* ’·”©ŸëÅC˛. cˆÜξ ∼ F(x)”©Ÿ, ˆÜη ∼ G(x)”©Ÿ. ÿ”F¸áÍ‚XiÜYiw,ÿò½¥”©Ÿ, ÖXiÜXj , ±9YiÜYjèÿò½ ¥”©Ÿ. ßÇÉm…ÿܡ˛ÿk', Öèܵi⁄µj…k'. œdè ,X1, · · · , XnÉp’·, ÿUb½ßÇ”©Ÿ, Y1, · · · , Ynè¥Xd. §±¸⁄O' ê{, X¸tuê{±9°á0¸öÎÍuê{—ÿU^u˘ aÍ‚uÛä. ·Ç3§5.2•èJL§ÈÍ‚˛„A:. ?n§ÈÍ‚uØK, Èg,/éX¤rµiKèûÿK. duÈzái,XiÜYiÉm å', eÚ”òU¸áÍ‚É~, l rµiKèûÿK. - Zi = Xi − Yi = ξi − ηi , i = 1, 2, · · · , n. (1.6) w,Zi=ÜzøA!B31iFˇ˛ÿÉk'. PZ = ξ − η, KZ1, · · · , Znåw§5g oNZëÅ, =Z1, · · · , Zn ¥’·”©Ÿ. duZ¥¸áˇ˛ÿÉ, œdZ ˛äè0, Öåy²ß¥'u:Ȱ. -n+èZ1, · · · , Zn•äáÍ, n−èZ1, · · · , Zn•KäáÍ, ßÇ—¥r.v..du b½ ξ⁄η¥ÎY.ëÅC˛, Z1, · · · , Zn•äè0áͱV«è10. œdåPn = n+ + n− .H0,=(1.5)§·û, K3n᣸•Zi/+0⁄/−0åU5è1 2 . œd uØK=zè: n+ ∼ b(n, p), 0 ≤ p ≤ 1,u H0 0 : p = 1 2 ←→ H0 1 : p 6= 1 2 ƒ½çD = {n+ ≥ c ½ n+ ≤ d}. œd, 3â½wÕ5Y²αÉ, c⁄däd Xn k=c n k 1 2 n ≤ α 2 , d = n − c §(½. 3~•n = 11, α = 0.10, 멟L X 2 k=0 11 k 1 2 11 = 0.0327, X 3 k=0 11 k 1 2 11 = 0.113, §±d = 2, c = 11 − 2 = 9 (èåNL10c = 9, d = n − c = 2). Y²α = 0.10 Œ“u ƒ½çè {n+ ≤ 2 ½ n+ ≥ 9} 3
作差值=1-,得 0.15,-0.04,-0.14,0.02,-0.06,-0.05, -0.03,-0.01,-0.11,-0.07,-0.12 其中取正数的个数为m+=2,因此在水平a=0.10下否定Ho,即认为化验室A、B测定结果之 间有显著差异 符号检验的另一个重要应用是分位数(特别是中位数)检验.请看下例. 例3检验某种维尼纶的纤度,测得100个数据如下表所示试问该维尼纶纤度的中位 表1.1 编号 1 3 456 > 8 9 10 纤度 1.261.291.321.351.381.411.441.471.501.53 频数 14 722232510 6 1 数me是否为1.40?(a=0.05) 解本题在显著水平a=0.05下,检验假设 H0:me=1.40←→H1:me≠1.40 若令表中所列100个数据的纤度值为X,i=1,…,100,令Y=X-1.40,i=1,…,100.计 算Y取正值得个数n+和取负值的个数n-,取值为0的个数为0,因此n,+n_=l00.在Ho成立 的前提下,则每个Y为正或负的可能性皆为1/2,故100个数据中n+和n_-应差别不大,若记X= n+,易见X~b(100,1/2),因此检验问题转化为:X~b(100,p),0≤p≤1,要检验 1 1 0:p=2←→l:p≠2a=0.05 否定域为D={X≥c2或X≤.利用中心极限定理可知:当Ho成立,且n→∞时有 X-n2_2X-n乡N0,1) Vn/4 本题中n=100,令 含(9)4(9)-号=a 查表得(c1-50)/5=-1.96,解得c1=40.2 类似地由 三()r1-4e:9 =0.025 查表得(c2-50)/5=1.96,解得c2=59.8,故否定域为 {X:X≤40.2或X≥59.8} 由表1.1算得X=n+=43,它介于(40.2,59.8)之间,故不足以否定Ho,故认为该维尼纶的纤维 度的中位数是1.40. 符号检验与二项分布参数检验的关系: 4
ääzi = xi − yi , 0.15, −0.04, −0.14, 0.02, −0.06, −0.05, −0.03, −0.01, −0.11, −0.07, −0.12, Ÿ•ÍáÍèn+ = 2, œd3Y²α = 0.10eƒ½H0,=@èzøA!Bˇ½(JÉ mkwÕ…. Œ“u,òááA^¥©†Í(AO¥•†Í)u. ûwe~. ~3 u,´ëZ×n›, ˇ100áÍ‚XeL§´ £ØTëZ×n›•† L 1.1 ?“ 1 2 3 4 5 6 7 8 9 10 n› 1.26 1.29 1.32 1.35 1.38 1.41 1.44 1.47 1.50 1.53 ™Í 1 4 7 22 23 25 10 6 1 1 Íme¥ƒè1.40? (α = 0.05) ) K3wÕY²α = 0.05e, ub H0 : me = 1.40 ←→ H1 : me 6= 1.40 e-L•§100áÍ‚n›äèXi , i = 1, · · · , 100, -Yi = Xi − 1.40, i = 1, · · · , 100. O éYiäáÍn+⁄KäáÍn−, äè0áÍè0, œdn+ + n− = 100.3H0§· cJe, KzáYiè½KåU5è1/2, 100áÍ‚•n+⁄n−AOÿå, ePX = n+,¥ÑX ∼ b(100, 1/2),œduØK=zè: X ∼ b(100, p), 0 ≤ p ≤ 1,áu H0 : p = 1 2 ←→ H1 : p 6= 1 2 , α = 0.05 ƒ½çèD = {X ≥ c2 ½ X ≤ c1}. |^•%4Žnå: H0§·, Ön → ∞ûk X − n/2 p n/4 = 2X − n √ n L −→ N(0, 1) K•n = 100, - Xc1 i=0 100 i 1 2 100 ≈ Φ c1 − 50 5 = α 2 = 0.025, L(c1 − 50)/5 = −1.96, )c1 = 40.2 aq/d X 100 i=c2 100 i 1 2 n ≈ 1 − Φ c2 − 50 5 = 0.025 L(c2 − 50)/5 = 1.96,)c2 = 59.8,ƒ½çè {X : X ≤ 40.2 ½ X ≥ 59.8} dL1.1éX = n+ = 43,ß0u(40.2, 59.8)Ém, ÿv±ƒ½H0, @èTëZ×në ›•†Í¥1.40. Œ“uÜ멟ÎÍu'X: 4
假设我们感兴趣一个实值连续型随机变量U,记其p0分位数为mg,即 po=P(U≤mg) 实际中我们往往不知道m的值,即便是指定p的值,这是由于我们不知道U的分布.对某个特 定的mo,记 p=P(U≤mo) 此时由于U的分布未知,故而p未知.由于U为连续型随机变量,故而 mg=m0当且仅当p=p0 mg≤m0当且仅当p≥p0 mg≥mo当且仅当p≤po 于是关于m的假设等价于关于p的假设.记U的一组样本为U1,·,Un,从而符号检验统 计量为 T-∑1(U≤mo) 显然T~B(,p).于是由二项分布的检验容易得到此时关于U的分位数的假设检验法则. 二、符号秩和检验 让我们再回顾一下符号检验,仍就例1中品酒的问题来说明.在计算Z=X:-Y后,我 们放弃Z:的具体数值而取其符号S:时,丢失了一些信息.这种信息的丢失,使符号检验的效率 有所降低.为此提出了符号秩和检验,它是符号检验的改进 例4仍看例1,设想请了13个人品尝甲、乙两种酒,评分结果如下: 表1.2 品酒人 12345678910111213 甲(x) 55324150.560483945484652.24544 乙()353743.1553450.34346.15147.35546.544 符号()+- 一一十 -0 此处=x:一.试问甲乙两种酒是否一样好?一共12个非0符号中,有两个“+”号,显示 多数品酒人认为乙酒好.在符号检验中我们就只能根据“+”、“-”号的数目去下结论.但细 看一下结果,我们发现,在认为“乙酒比甲酒优”的10人中,乙酒的得分比甲酒高得不多,而 在认为“甲酒优于乙酒”的2人中,甲的得分远远高于乙.这个事实给2:10这个表面结果,打 了一个折扣,它启示我们:除了考虑符号外,还应当把这一点考虑进来.符号秩的概念提供了 一种作法 定义6.2.1设X1,…,Xn为两两不相等的一组样本,将其大小排列为X)<…<X(m 若X=X(B),则称X,在样本(X1,…,Xn)中的秩为R. 显然,若X1,…,Xn为来自连续型分布F(x)的样本,则以概率为1保证X1,…,Xn中两两 互不相等 5
b·Ça,òá¢äÎY.ëÅC˛U, PŸp0©†Íèmq,= p0 = P(U ≤ mq) ¢S•·Ç ÿmqä, =B¥ç½p0ä,˘¥du·ÇÿU©Ÿ. È,áA ½m0, P p = P(U ≤ m0) dûduU©Ÿô, pô. duUèÎY.ëÅC˛, mq = m0 Ö= p = p0 mq ≤ m0 Ö= p ≥ p0 mq ≥ m0 Ö= p ≤ p0 u¥'umqbdu'upb. PUò|èU1, · · · , Un, l Œ“u⁄ O˛è T = XI(Ui ≤ m0) w,T ∼ B(n, p). u¥d멟uN¥dû'uU©†Íbu{K. !Œ“ù⁄u 4·Ç2£òeŒ“u, E“~1•¨ÀØK5`². 3OéZi = Xi − Yi, · ÇòÔZi‰NÍä ŸŒ“Siû, øî ò &E. ˘´&Eøî, ¶Œ“u« k§¸$. èdJ— Œ“ù⁄u, ߥŒ“uU?. ~4 Ew~1, éû 13á<¨}`!ظ´À, µ©(JXe: L 1.2 ¨À< 1 2 3 4 5 6 7 8 9 10 11 12 13 ` (xi) 55 32 41 50.5 60 48 39 45 48 46 52.2 45 44 Ø (yi) 35 37 43.1 55 34 50.3 43 46.1 51 47.3 55 46.5 44 Œ“(zi) + − − − + − − − − − − − 0 d?zi = xi −yi .£Ø`ظ´À¥ƒò–? ò12áö0Œ“•, k¸á/+0“, w´ ıͨÀ<@èØÀ–. 3Œ“u•·Ç“êUä‚/+0!/−0“Í8e(ÿ. [ wòe(J, ·Çuy, 3@è/ØÀ'`À`010<•, ØÀ©'`Àpÿı, 3@è/`À`uØÀ02<•, `©puØ. ˘áØ¢â2 : 10˘áL°(J, ã òáÚû, ßÈ´·Ç: ÿ ƒŒ“ , ÑAr˘ò:ƒ?5. Œ“ùVgJ¯ ò´ä{. ½¬6.2.1 X1, · · · , Xn踸ÿÉò|, ÚŸå¸èX(1) < · · · < X(n) , eXi = X(Ri) , K°Xi3(X1, · · · , Xn)•ùèRi . w,, eX1, · · · , Xnè5gÎY.©ŸF(x), K±V«è1yX1, · · · , Xn •¸¸ pÿÉ. 5