S7.4非参数假设检验 在872中过论了盘体分布类型为己知时的参数?设拾验问题一般在讲行参数假设检哈 之前,需要对母体的分布进行推断本节将讨论母体分布的假设检验问题因为所用的方法适 用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的在数理统计学中不依赖于分 布的统计方法统称为非参数统计方法这里所讨论的问题就是非参数假设检验问题这里所研 究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟 合母体的分布函数,另一是拟合母体分布的概率函数这里我们只介绍三种检验方法:概率图 纸法.x拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验 一,概率图纸法 这是一种比较直观和简便的检验方法它适合于在现场使用目前常见的概率图纸有正态, 对数正态,二项分布,指数分布和威布尔分布概率图纸等这里我们只介绍正态概率图纸关于 其它分布的概率图纸的构造原理和使用方法都是类似的 1正态概率图纸的构造原理 设母体5有分布函数F(x),N(4,o2)}表示正态分布族需要检验假设 H。:F(x)e{N(4o2)} 这里μ和σ2均为未知常数在原假设H。为真时,通过中心化变换 1 F(x)= 即以)=二严服从正态N0,)函数u是x的线性函数 4(的=5-4 (7.13) 在(,》直角坐标平面上是一条直线这条直线过(μ,0.且斜率为上 2.检验步骤 事实上,我们知道的不是母体5取出的一组子样观察值x,…,x,由格里汶科定理知道子 样的经验分布函数F,(x)依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是 否属于正态分布族时,我们以大子样的经验分布函数F(x)作为母体分布的近似若H。F(x) ∈{N(“,o2)}为真,那末点(x,F(x,儿,i=1,…,m,在正态概率图纸上应该在一条直线上所 以根据上述经验分布函数F(x)是母体分布函数Fx)很好的近似,点(x,F(x,)以,i-1,,n, 在正态概率图纸上也应该近似地在一条直线附近倘若点列(x,下(x儿,不是近似地在一条 直线附近,那末只能说明F(x)不属于正态分布族根据上述想法,用正态概率图纸去检验假设 H。的具体步骤如下
§ 7.4 非参数假设检验 在§7.2 中讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验 之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适 用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分 布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研 究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟 合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图 纸法. 2 -拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验. 一, 概率图纸法 这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态, 对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于 其它分布的概率图纸的构造原理和使用方法都是类似的 1. 正态概率图纸的构造原理 设母体 有分布函数 F(x),{N( , 2 )}表示正态分布族.需要检验假设 : ( ) { ( , )} 2 H0 F x N 这里 和 2 均为未知常数.在原假设 H0 为真时,通过中心化变换 ( ) 2 1 2 1 ( ) 2 2 ( ) 2 2 2 − = = = − − − − − − x F x e dt e du x x t 即 − ( ) = 服从正态 N(0,1).函数 u(x)是 x 的线性函数. − ( ) = (7.13) 在(x,u(x))直角坐标平面上是一条直线.这条直线过( ,0),且斜率为 1 . 2. 检验步骤. 事实上,我们知道的不是母体 取出的一组子样观察值 n x , , x 1 由格里汶科定理知道子 样的经验分布函数 F (x) n 依概率收剑于母体分布函数 F(x).所以在检验母分体布函数 F(x)是 否属于正态分布族时,我们以大子样的经验分布函数 F (x) n 作为母体分布的近似.若 H0 :F(x) ∈{N( , 2 )}为真,那末点 (x ,F(x )),i 1, ,n, i i = 在正态概率图纸上应该在一条直线上.所 以根据上述经验分布函数 F (x) n 是母体分布函数 F(x)很好的近似,点 (x ,F(x )),i 1, ,n, i i = 在正态概率图纸上也应该近似地在一条直线附近.倘若点列 ( , ( )), i i x F x 不是近似地在一条 直线附近,那末只能说明 F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设 H0 的具体步骤如下
(1)整理数据 (②)描点 (③)目测这些点的位置, 3.未知参数4与o2的估计 若通过概率图纸检验己经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠 近各点(K,F,(K0儿1=1,m,的一条直线L因为以)=二上服从正态NO,1所以当 4()=二业=0,即=4时对应的概率F=0.5,因此只婴在概率图纸上面一条FO5的水平 直线这条直线与直线1的交点的横坐标xs就可以作为参数为4的估计.又由μ(x=1时所对 应的概率F=0.8413的水平直线,这条直线与直线1的交点的横坐标为x043这个x04显然 满足hB=一少=1即G=一H因此可以用差B一5估计G 例7.8(略)见P338 二,X2的似体检验法 前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统 计推断,并且还能对分布所含的参数作出估计但是这种方法因人而异,且精度不高,又不能控 制犯错误的概率这里介绍x2拟合检验法,它能够像各种显著性检验一样控制犯第一类错误 的概率 设母体的分布函数为具有明确表达式的F(x,我们把随机变量5的值域R分成k个互 不相容的区间4=4o,a]4=[41,4],A=[4-,a]这些区间不一定有相同的长度 设x,,x是容量为n的子样的一组观测值.n,为子样观测值x,,xn中落入A,的频 数∑n,=n在这n次事件A,出现的频率为 我们现在检验原假设H。:F(x)=F。(x).设在原假设H。成立下,母体5落入区间A,的 概率为卫,即 P=P(A)=Fo(a,)-Fo(a).i=1..k (7.14) 此时n个观察值中,恰有,个值落入A,内,2的观察值落入4内,n个观察值落入A内 的概率为
(1) 整理数据 (2) 描点 (3) 目测这些点的位置, 3. 未知参数 与 2 的估计. 若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠 近各点 ( , ( )), 1, , , x(i) Fn x(i) i = n 的一条直线 l,因为 − ( ) = 服从正态 N(0,1),所以当 ( ) = 0 − = x ,即x= 时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平 直线.这条直线与直线l的交点的横坐标 0.5 x 就可以作为参数为 的估计.又由 (x)=1时所对 应的概率 F=0.8413 的水平直线,这条直线与直线 l 的交点的横坐标为 0.8413 x .这个 0.8413 x 显然 满足 1 0.8413 0.8413 = − = x 即 = x0.8413 − 因此可以用差 0.8413 0.5 x − x 估计 . 例 7.8 (略)见 P338 二, 2 的似体检验法 前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统 计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控 制犯错误的概率.这里介绍 2 -拟合检验法,它能够像各种显著性检验一样控制犯第一类错误 的概率. 设母体 的分布函数为具有明确表达式的 F(x),.我们把随机变量 的值域 R 分成 k 个互 不相容的区间 A a a A a a Ak ak ak , , , , , , 1 = 0 1 2 = 1 2 = −1 这些区间不一定有相同的长度. 设 n x , , x 1 是容量为 n 的子样的一组观测值. i n 为子样观测值 n x , , x 1 中落入 Ai 的频 数. n n n i i = =1 在这 n 次事件 Ai 出现的频率为 n ni . 我们现在检验原假设 : ( ) ( ) 0 0 H F x = F x .设在原假设 H0 成立下,母体 落入区间 Ai 的 概率为 Pi ,即 P P A F a F a i k i = ( i ) = 0 ( i ) − 0 ( i−1 ), =1, (7.14) 此时 n 个观察值中,恰有 1 n 个值落入 A1 内, 2 n 的观察值落入 A2 内,nk 个观察值落入 Ak 内 的概率为
%mm学学… 这是一个多项分布, 按大数定理,在H,为真时,频率:与概率P的差异不应太大根据这个想想构造一个统 计量 - (7.15) 称做x2统计量往后可以看到,用x表示这一统计量不是没有原因的.因为它的极限分布就 是自由度为k1的x2.分布 为了能够把x2统计量用来作检验的统计量,我们必须知道它的抽样分布我们先k=2的 简单情形.在H。成立下, P(4)=P,P(4)=B 其中D+E=1 这时,频数%十,=n我们考察 x-a-+,-22 (7.16) nP nP Y=m-nP,Y=n2-nP (7.17) 显然 y+X=%+仍-MR+B)=0 (7.18) 由此可见X与,不是线性独立,且Y=-于是 父品+器品 (7.19 LVnI-r)】 风墨暖他吸果院显克大美生会的专是强送子鞋
nk n n n k P P P n n n n 1 2 1 2 1 2 ! ! ! ! 这是一个多项分布. 按大数定理,在 H0 为真时,频率 n ni 与概率 Pi 的差异不应太大.根据这个思想构造一个统 计量 2 == − k i i i i nP n nP 1 2 ( ) (7.15) 称做 2 -统计量.往后可以看到,用 2 表示这一统计量不是没有原因的.因为它的极限分布就 是自由度为 k-1 的 2 -分布. 为了能够把 2 -统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先 k=2 的 简单情形.在 H0 成立下, 1 2 2 P(A ) = Pi ,P(A ) = P 其中 P1 + P2 =1 这时,频数 n1 + n2 = n 我们考察 2 2 2 2 1 2 2 1 1 ( ) ( ) nP n nP nP n nP − + − = (7.16) 令 1 1 1 2 2 2 Y = n − nP,Y = n − nP (7.17) 显然 Y1 +Y2 = n1 + n2 − n(P1 + P2 ) = 0 (7.18) 由此可见 Y1 与 Y2 不是线性独立,且 Y1 = −Y2 .于是 1 2 2 1 2 2 2 1 2 2 1 nP P Y nP Y nP Y = + = 2 1 1 1 1 (1 ) − − nP P n nP (7.19) 根据德莫弗-拉普拉斯极限定理,当 n 充分大时,随机变量 (1 ) 1 1 1 1 nP P n nP − − 的分布是接近于正
态的,从而推得k=2情形的分布,当n充分大时,是接近于自由度为1的y2分布。 对于一般情形有如下的定理。 定理7.1当H。为真时,即P,…,P,为母体的真实概率时,由(7.15)式所定义的统计量x 的渐近分布是自由度为k1的X2分布,即密度函数为 f(x)= 2k-1 2 (7.20) 证因为在n个观测值中怡有m,个观测值落入A内,2的观察值落入A,内,…:个观察值 落入A,内的概率为 mn登…P 川 这里n,+n2+…+n:=n其特征函数 u.-2pe】 (7.21) (7.22) 于是有 -- (7.23) (7.24) 由此式看出,诸随机变量Y,不是线性独立的.(Y,…,Y)的联合分布的特征函数具有形状 7.25) 两边取对数得
态的,从而推得 k=2 情形的分布,当 n 充分大时,是接近于自由度为 1 的 2 -分布. 对于一般情形有如下的定理. 定理 7.1 当 H0 为真时,即 P Pk , , 1 为母体的真实概率时,由(7.15)式所定义的统计量 2 的渐近分布是自由度为 k-1 的 2 -分布,即密度函数为 − = − − − 0, , 2 1 2 1 ( ) 2 2 3 2 1 k x k x e k f x (7.20) 证 因为在n个观测值中恰有 1 n 个观测值落入 A1 内, 2 n 的观察值落入 A2 内,nk 个观察值 落入 Ak 内的概率为 nk n n n k P P P n n n n 1 2 1 2 1 2 ! ! ! ! 这里 n1 + n2 ++ nk = n .其特征函数 n k j it k j j t t P e = =1 2 1 ( ,, ) (7.21) 令 j k nP n nP Y j j j j , = 1,2, − = (7.22) 于是有 = = = − = k j j k j j j j Y nP n nP 1 2 1 2 2 ( ) (7.23) 和 = k j Yj Pj 1 =0 (7.24) 由此式看出,诸随机变量 Yj 不是线性独立的.( Y Yk , , 1 )的联合分布的特征函数具有形状 2 1 1 1 ( , , ) exp exp • = − = = k j j j j k j k j j nP it t t it nP P (7.25) 两边取对数得
hmta加w空g+a宫o急》 (7.26) 利用指数数函和对数函在1,=0处的泰勒展开: 和 于是 ht小=吃++2同-2+吃呵 容-2-2何jw 当n→o时 ht--在可月 mtw四2-空可门 7.26 作一正交变换, a.-bok-1 (7.27 Z.-/PY 其中a,应该满足 含0,--- 和 24=01=l-
= − + = = k j j j j k j n j j nP it t t i n t P n P 1 1 1 ln ( ,, ) ln exp (7.26) 利用指数数函和对数函在 t j = 0 处的泰勒展开: − = − + nP n t nP it np it j j j j j j 1 2 exp 1 2 和 ( ) 2 ln(1 ) 2 2 x x + x = x − + 于是 (1) 2 1 2 1 1 2 1 ln ( , , ) ln 1 1 1 2 1 2 1 1 1 2 1 1 + + − − = − = − + + − + = = = = = = = k j k j k j j j j j j k j j j k j k j j j j k j k j j t P n i t n t P n i n i n t P n t n t P n i t t i n t P n 当 n → 时 → − − = = k j k j k j j Pj t t t t 1 2 1 2 1 2 1 ln ( ,, ) 即 = − − → = = k j k j k j j j n t t t t P 1 2 1 2 1 2 1 ( , , ) exp lim (7.26) 作一正交变换: = = = − = = k j k j j k j l lj Z P Y Z a Y l k 1 1 , 1,, 1 (7.27) 其中 lj a 应该满足 , 1, , 1 0, 1, 1 = − = = = l r k l r l r a a k j lj rj 和 0, 1, , 1 1 = = − = a P l k k j lj j