§82判别分析 在许多自然科学和社会科学的研究中,经常会遇到 需要判别的问题。例如一个病人肺部有阴影,大夫要判 断他是肺结核、肺部良性肿瘤还是肺癌。这里,肺结核 人、肺部良性肿瘤病人以及肺癌病人组成三个总体,病 人来源于三个总体之一,判断分析的目的是通过人的指 标(阴影大小、阴影部位、边缘是否光滑等)来判断他 应该属于哪个总体(即判断他生的是什么病)。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 1 §8.2 判别分析 在许多自然科学和社会科学的研究中,经常会遇到 需要判别的问题。例如一个病人肺部有阴影,大夫要判 断他是肺结核、肺部良性肿瘤还是肺癌。这里,肺结核 人、肺部良性肿瘤病人以及肺癌病人组成三个总体,病 人来源于三个总体之一,判断分析的目的是通过人的指 标(阴影大小、阴影部位、边缘是否光滑等)来判断他 应该属于哪个总体(即判断他生的是什么病)
又如根据已有的气象资料(气温、气压等)来判断明 天是阴天,还是雨还是无雨。在考古学、古生物学和 些社会现象的调查中,都有类似的问题,所以判别 分析是应用性很强的一种多元分析方法。 类别分析的模型可以这样来描述:有R个总体 G1,…,Gn,它们的分布函数分别是F(x),…,F(x), 均为P维分布函数,对给定的一个新样品,需要判 断它来自哪个总体 解决这个问题可以有多种方法,本段介绍几种常用的 判别方法。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 2 又如根据已有的气象资料(气温、气压等)来判断明 天是阴天,还是雨还是无雨。在考古学、古生物学和 一些社会现象的调查中,都有类似的问题,所以判别 分析是应用性很强的一种多元分析方法。 类别分析的模型可以这样来描述:有R 个总体 G GR , , 1 ,它们的分布函数分别是 ( ), , ( ) F1 x FR x , 均为p维分布函数,对给定的一个新样品,需要判 断它来自哪个总体。 解决这个问题可以有多种方法,本段介绍几种常用的 判别方法
距离判别方法 距离判别方法是定义一个样品到某个总体的 “距离”,然后根据样品到各个总体的“距离” 的远近来判断样品的归属。为此先后介绍马氏 距离的概念。 1、马氏距离的概念 马氏距离是印度统计学家马哈拉诺比斯于 1936年提出的一种距离概念,其定义如下: 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 3 一、距离判别方法 距离判别方法是定义一个样品到某个总体的 “距离” ,然后根据样品到各个总体的“距离” 的远近来判断样品的归属。为此先后介绍马氏 距离的概念。 1、马氏距离的概念 马氏距离是印度统计学家马哈拉诺比斯于 1936年提出的一种距离概念,其定义如下:
定义8.1设X,是从总体G中抽取的样品,G服 从P维正态分布N(,∑),∑>0,定义X,y两点之间 的马氏距离为D(X,F),这里 D2(X,Y)=(X-Y)∑(X-Y), 定义X与总体G的均值向量的距离。 可以证明,马氏距离符合通常距离的定义即具有 非负性、自反性且满足三角不等式。事实上 D(X, Y=D(X,Y)=V(X-Y)2(X-Y) v(x-Y2 2i(X-Y) =y②Σ2(X-Y)C∑2(X-Y)≥0 湘潭大学数学与计算科学学院国国4e
湘潭大学数学与计算科学学院 上一页 下一页 4 定义 8.1 设X ,Y 是从总体G 中抽取的样品,G 服 从 p维正态分布N p (,), 0,定义X ,Y 两点之间 的马氏距离为D(X,Y ),这里 ( , ) ( ) ( ) 2 1 D X Y = X − Y X − Y − , 定义X 与总体G 的均值向量 的距离。 可以证明,马氏距离符合通常距离的定义即具有 非负性、自反性且满足三角不等式。 ( , ) ( , ) 2 D X Y = D X Y ( ( ))( ( )) 0 2 1 2 1 = − − − − X Y X Y 事实上 ( ) ( ) 1 = X −Y X −Y − ( ) ( ) 2 1 2 1 = X −Y X −Y − −
仅当X=Y时,D(X,Y)=0。 而自反性:D(X,Y)=D(Y,X)是很明显的。 下证满足三角不等式,设X,Y,Z为总体G的样 品,为证明 D(X,2sD(X,Y)+D(Y, 2) 令 W=∑2(X-Z)=∑2(X-y+Y-Z) ∑2(X-y)+∑2(Y-Z)defU+V 由 Minkowski不等式得 D(X,Z)=wWW≤√UU+√V=D(X,)+D(Y,Z) 湘潭大学数学与计算科学学院国一5m
湘潭大学数学与计算科学学院 上一页 下一页 5 仅当X = Y 时,D(X,Y ) = 0。 而自反性:D(X,Y ) = D(Y, X)是很明显的。 下证满足三角不等式,设X ,Y ,Z 为总体G 的样 品,为证明 D(X, Z) D(X,Y ) + D(Y, Z) ( ) ( ) 2 1 2 1 W = X − Z = X −Y + Y − Z − − = X −Y + Y − Z U +V − − ( ) ( ) def 2 1 2 1 令 由Minkowski不等式得 D X Z W W T ( , ) = U U V V T T + = D(X,Y ) + D(Y, Z)