72 Distance discriminant analysis(距离判别) 令 Basic idea(基本思想): 即:首先根据已知分类的数据、分别计算争类的重 即各组(类)的均值,判别的洼败是对任绮 计 到各类平均数的晶离,哪个距离最尔就蒋它判归哪 (-) Two-population两个总体的距离判别法 1、 Covariance matrices is equal方差相等 先考虑两个总体的情况,设有两个协差阵相同的 正E态总体,对给定的样本Y判 菜自哪 最直观的想法是计算Y 裁周个暑的离 故我们用马氏距离来给定判别 2021/2/22 26 cxt
2021/2/22 26 cxt 7.2 Distance discriminant analysis(距离判别) ❖ Basic idea(基本思想): 即:首先根据已知分类的数据,分别计算各类的重心 即各组(类)的均值,判别的准则是对任给样品,计算 它到各类平均数的距离,哪个距离最小就将它判归哪个 类。 (一)Two-population两个总体的距离判别法 1、Covariance matrices is equal方差相等 先考虑两个总体的情况,设有两个协差阵相同的 p维正态总体,对给定的样本Y,判别一个样本Y到 底是来自哪一个总体,一个最直观的想法是计算Y 到两个总体的距离。故我们用马氏距离来给定判别 规则,有:
y∈G,如d(y,G)<d(y,G2 y∈ G,, ld(y, G<dy, G,) 待判,如d(yG)=d(G) 2021/2/22 cxt
2021/2/22 27 cxt ( ) ( ) ( ) ( ) = ( , ) ( , )2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判, 如 , 如 , , , 如 , , , y y y y y y
d2(yG2)-d2(y,G) (y-∠)2-(y-2)-(y-∠4)2-y-∠4) =y2y-2y2x2+少22 (y2y-2y∑p41+;421) =2y2(1-12)-(1+2)2(4-42) =2y(+1)yx(1-A2) 2 11+2 a=2(1-2)=(a12a 2 2,3p 2021/2/22 28 cxt
2021/2/22 28 cxt ( ) ( ) ( ) ( ) ( , ) ( , ) 1 1 2 1 1 2 1 2 2 2 = − − − − − − − − y y y y y y d G d G2 2 2 1 1 y y y 1 2 − − − = − + = − − − 2 ( ) 1 2 1 y ( ) ( )2 1 + 2 − − 1 1 ] ( ) 2 ( ) 2[ 1 2 1 2 1 y − + = − − 2 1 2 + 令 = ( ) ( , , , ) 1 2 = − = − p a a a 1 2 1 ( 2 )1 1 1 1 − − − − − + 1 1 y y y
w(y=(y-na=a'y-u a'y-a'p 口则前面的判别法则表示为 y∈G1,如W(y)>0, y∈G,如W(y)<0 待判,如W(Y)=0 当p1,和Σ已知时,a=2(是A已知的p维向量 W(y)是y的线性函数,称为线性判别函数。a称为判别 系数。用线性判别函数进行判别分析非常直观,使用起 来最方便,在实际中的应用也最广泛 2021/2/22 cxt
2021/2/22 29 cxt 则前面的判别法则表示为 = ( ) 0 0 0 2 1 W Y G W G W 待判, 如 , 如 ( ) 。 , 如 ( ) , y y y y W(y) = (y − ) =(y − ) ( ) ( ) 1 1 1 p p p = a y − ++ a y − = αy −αμ 当 和已知时, 是一个已知的p维向量, W(y)是y的线性函数,称为线性判别函数。称为判别 系数。用线性判别函数进行判别分析非常直观,使用起 来最方便,在实际中的应用也最广泛。 1 2 , ( ) 1 2 1 = − −
例众兴的考接块可以 根据企业的生产经营 业徐有企业们股个 考核企 经营状 资金利润率=利润总额资金占用总额 劳动生产率=总产值职工平均人数 产品净值率=净产值/总产值 个指标的均值向彙和协方差矩阵如下。现有二 企业,观测值分别为 78,391.96)和(8.1,34.2,69),问这 两个业应该属于哪一类? 2021/2/22 三30 cxt
2021/2/22 30 cxt 例 在企业的考核中,可以根据企业的生产经营情况 把企业分为优秀企业和一般企业。考核企业经营状 况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二 个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这 两个企业应该属于哪一类?