7.2 Distance discriminant analysis(距离判别) ☆ Basic idea(基本思想): 即:首先根据已知分类的数据,分别计算各类的重心 智革的晶判邮的准则量牙联到归d 类 (-)Two- population两个总体的距离判别法 1、 Covariance matrices is equal方差相等 先考虑两个总体的情况,设有两个协差阵Σ相同的 维正态总体,对定的样本Y,判别一个样本Y到 体的距离。故我们用马距离 还别 规则,有 2021/1/21 26
2021/1/21 26 cxt 7.2 Distance discriminant analysis(距离判别) ❖ Basic idea(基本思想): 即:首先根据已知分类的数据,分别计算各类的重心 即各组(类)的均值,判别的准则是对任给样品,计算 它到各类平均数的距离,哪个距离最小就将它判归哪个 类。 (一)Two-population两个总体的距离判别法 1、Covariance matrices is equal方差相等 先考虑两个总体的情况,设有两个协差阵相同的 p维正态总体,对给定的样本Y,判别一个样本Y到 底是来自哪一个总体,一个最直观的想法是计算Y 到两个总体的距离。故我们用马氏距离来给定判别 规则,有:
V∈ 如d(y,G)<d2(y,G2 y∈G,如d(!,G)<d(y,G) 待判,如(G)=d(G2 2021/1/21 cXt
2021/1/21 27 cxt ( ) ( ) ( ) ( ) = ( , ) ( , )2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判, 如 , 如 , , , 如 , , , y y y y y y
d(y, G)-dy, G (y-y2(y-2)-(y-4)2(y-A4) yy-2yΣp2+y242 -(y2y-2y24+142) 2y2(41-2)-(A1+2)2(1-2) =2(4+)x- 2(4-42) + a=2(41-2)=(a12 2 2021/1/21 28
2021/1/21 28 cxt ( ) ( ) ( ) ( ) ( , ) ( , ) 1 1 2 1 1 2 1 2 2 2 = − − − − − − − − y y y y y y d G d G2 2 2 1 1 y y y 1 2 − − − = − + = − − − 2 ( ) 1 2 1 y ( ) ( )2 1 + 2 − − 1 1 ] ( ) 2 ( ) 2[ 1 2 1 2 1 y − + = − − 2 1 2 + 令 = ( ) ( , , , ) 1 2 = − = − p a a a 1 2 1 ( 2 )1 1 1 1 − − − − − + 1 1 y y y
w(y=(y-m)'a=a'(y-b y=μ 口则前面的判别法则表示为 ∈G,如W(y)>0, y∈G2,如W(y)<0 待判,如W(Y)=0 当A1,和Σ已知时,∝=Σ(是险已知的p维向量 W(y)是y的线性函数,称为线性判别函数。称为判别 系数。用线性判别函数进行判别分析非常直观,使用起 来最方便,在实际中的应用也最广泛 2021/1/21 cXt
2021/1/21 29 cxt 则前面的判别法则表示为 = ( ) 0 0 0 2 1 W Y G W G W 待判, 如 , 如 ( ) 。 , 如 ( ) , y y y y W(y) = (y − ) =(y − ) ( ) ( ) 1 1 1 p p p = a y − ++ a y − = αy −αμ 当 和已知时, 是一个已知的p维向量, W(y)是y的线性函数,称为线性判别函数。称为判别 系数。用线性判别函数进行判别分析非常直观,使用起 来最方便,在实际中的应用也最广泛。 1 2 , ( ) 1 2 1 = − −
例在企业的考核中,可以根据企业的生产经营情况 把企业分为优秀企业和般企业。考核企业经营状 况的指标有 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二 企业,观测值分别为 7.8,39196)和(81,34.2,6.9),问这 两个企业应该属于哪一类? 2021/1/21
2021/1/21 30 cxt 例 在企业的考核中,可以根据企业的生产经营情况 把企业分为优秀企业和一般企业。考核企业经营状 况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二 个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这 两个企业应该属于哪一类?