第四章统计分类器及学习 在距离分类器和判别函数分类器中,我们都是把模式看作是N维欧氏空间中的一个点, 而且统一类别的模式在空间中聚集在一定的区域,不同模式的区域在空间中具有一定的分离 性。在本章所讨论的统计分类器中,我们仍然认为模式是欧氏空间中的一个点,但是每一类 模式不是分布在空间中的一个确定区域,而是可能分布在整个空间,只不过空间中每一点属 于某一类的概率不同,属于这一类的可能性大一些,属于另一类的可能性小一些。我们可以 利用这样的性质来建立统计分类器。 41概率论基本知识 本章中我们使用的主要数学工具是概率论,因此先来复习一些概率论的知识。 事件 自然界的事件可以分为确定性事件和不确定性事件,确定性和不确定性主要体现在事件 的概念和发生上。概念是确定的,发生也是确定的,这是确定事件,例如在标准大气压下, 水加热到100度就会开:概念是确定的,发生是不确定的,称为随机事件,例如掷骰子事件 还有一些事件的概念本身就不确定,这类事件称为模糊事件,例如年青人的概念是不确定的, 遇到的人是年青人的事件就是模糊事件 对模糊事件的处理,在模式识别中也占有重要的地位,本章中我们只讨论随机事件。 、随机变量 随机事件的数量表示称为随机变量。取值为离散的称为离散随机变量,例如掷硬币,只 可能出现正、反两面,分别用0和1表示;取值为连续的称为连续随机变量,例如测量物体 的长度。 频率和概率 设A为联系于某个试验的随机事件,试验在相同的条件下重复N次,其中M次A事 件发生,则A发生的频率为MN,计为:(4)=MN 由于A事件的随机性,A的频率也是一个随机变量。但是当N很大时,频率会趋向一 个稳定值,称为A的概率,即P(4)=lmJ(4 四、联合概率和条件概率 联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率记为:P(AB); 条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(4B) 乘法定理:条件概率与联合概率之间存在如下关系:P(AB)=P(AB)/P(B)
32 第四章 统计分类器及学习 在距离分类器和判别函数分类器中,我们都是把模式看作是 N 维欧氏空间中的一个点, 而且统一类别的模式在空间中聚集在一定的区域,不同模式的区域在空间中具有一定的分离 性。在本章所讨论的统计分类器中,我们仍然认为模式是欧氏空间中的一个点,但是每一类 模式不是分布在空间中的一个确定区域,而是可能分布在整个空间,只不过空间中每一点属 于某一类的概率不同,属于这一类的可能性大一些,属于另一类的可能性小一些。我们可以 利用这样的性质来建立统计分类器。 4.1 概率论基本知识 本章中我们使用的主要数学工具是概率论,因此先来复习一些概率论的知识。 一、事件 自然界的事件可以分为确定性事件和不确定性事件,确定性和不确定性主要体现在事件 的概念和发生上。概念是确定的,发生也是确定的,这是确定事件,例如在标准大气压下, 水加热到 100 度就会开;概念是确定的,发生是不确定的,称为随机事件,例如掷骰子事件; 还有一些事件的概念本身就不确定,这类事件称为模糊事件,例如年青人的概念是不确定的, 遇到的人是年青人的事件就是模糊事件。 对模糊事件的处理,在模式识别中也占有重要的地位,本章中我们只讨论随机事件。 二、随机变量 随机事件的数量表示称为随机变量。取值为离散的称为离散随机变量,例如掷硬币,只 可能出现正、反两面,分别用 0 和 1 表示;取值为连续的称为连续随机变量,例如测量物体 的长度。 三、频率和概率 设 A 为联系于某个试验的随机事件,试验在相同的条件下重复 N 次,其中 M 次 A 事 件发生,则 A 发生的频率为 M N ,计为: f A M N N ( ) = 。 由于 A 事件的随机性, A 的频率也是一个随机变量。但是当 N 很大时,频率会趋向一 个稳定值,称为 A 的概率,即 ( ) lim N ( ) N P A f A → = 。 四、联合概率和条件概率 联合概率:设 A B, 是两个随机事件, A 和 B 同时发生的概率称为联合概率,记为: P A B ( , ) ; 条件概率:在 B 事件发生的条件下, A 事件发生的概率称为条件概率,记为: P A B ( ) ; 乘法定理:条件概率与联合概率之间存在如下关系: P A B P A B P B ( ) = ( , ) ( ) ;
五、概率密度函数 概率分布函数:设X为连续型随机变量,定义分布函数F(x)=P(X≤x) 概率密度函数:如果存在一个非负函数P(x)使得F(x)=p(0)d成立,则称p(x)为x 的概率密度函数。 同时有:F(x)=P(x),P(X=x)=P(x)tx 六、全概公式和贝叶斯公式 互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们 是互不相容的。 全概公式:若事件B只能与两两不相容的事件A,A2…,A之一同时发生,则有: P(B)=∑P(4)P(B4) 贝叶斯公式:P(4B)= P(B4)P(4) P(B 当B为连续随机变量,4为离散随机变量时:P(4)=2(a42 42最小错误率准则贝叶斯分类器 在下面的讨论中,我们都假设X为类别未知样本,用N维特征矢量来表示,现有M个 类别92Q2…9y,先验概率P()和类条件概率P(XO)已知。我们要根据先验概率 和条件概率将X分类到某一类中去。 g 0.15 p(92 X
33 五、概率密度函数 概率分布函数:设 X 为连续型随机变量,定义分布函数 F x P X x ( ) = ( ) ; 概率密度函数:如果存在一个非负函数 p x( ) 使得 ( ) ( ) x F x p t dt − = 成立,则称 p x( ) 为 X 的概率密度函数。 同时有: F x p x ( ) = ( ) , P X x p x dx ( = =) ( ) 。 六、全概公式和贝叶斯公式 互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们 是互不相容的。 全概公式:若事件 B 只能与两两不相容的事件 1 2 , , , A A AN 之一同时发生,则有: ( ) ( ) ( ) 1 N i i i P B P A P B A = = 贝叶斯公式: ( ) ( ) ( ) ( ) P B A P A P A B P B = 当 B 为连续随机变量, A 为离散随机变量时: ( ) ( ) ( ) ( ) p B A P A P A B p B = 。 4.2 最小错误率准则贝叶斯分类器 在下面的讨论中,我们都假设 X 为类别未知样本,用 N 维特征矢量来表示,现有 M 个 类别 1 2 , , , M ,先验概率 P(i) 和类条件概率 P(X i) 已知。我们要根据先验概率 和条件概率将 X 分类到某一类中去
最小错误率准则 进行分类就必须要有一个分类准则。由于每一个类别都是分布在整个空间中,因此X有 可能是任何一个类别,现在我们把它判别为某一类,必然要带来错误,一般来情况下我们希 望这种错误的概率越小越好。将X分类为Ω,类所产生的误判概率为: P()=(2|x)=P(x)-P(x)=1-P( 要使得判别的错误率最小,也就是寻找一个类别i,使得P(e),这就等价于后验概率 P(2|X)最大 0.35 03 0.25 0.15 P(92 然而后验概率P(92X)我们并不知道,但是可以利用贝叶斯公式转换为先验概率和类 条件概率: P(Q, x)=P(X e2, )P(Q,) P(X 由于P(X)每一类都相同,对比较大小没有影响,因此可以取判别函数: d(x)=P(X9.)P(92) 判别规则为: 若b= arg maxd(X),则ⅹ∈9 这就是贝叶斯分类器的判别准则
34 一、最小错误率准则 进行分类就必须要有一个分类准则。由于每一个类别都是分布在整个空间中,因此 X 有 可能是任何一个类别,现在我们把它判别为某一类,必然要带来错误,一般来情况下我们希 望这种错误的概率越小越好。将 X 分类为 i 类所产生的误判概率为: ( ) ( ) ( ) ( ) ( ) 1 1 1 M M i j j i i j j j i P e P P P P = = = = − = − X X X X 要使得判别的错误率最小,也就是寻找一个类别 i ,使得 P e i ( ) ,这就等价于后验概率 P(i X) 最大。 然而后验概率 P(i X) 我们并不知道,但是可以利用贝叶斯公式转换为先验概率和类 条件概率: ( ) ( ) ( ) ( ) i i i P P P P = X X X 由于 P(X) 每一类都相同,对比较大小没有影响,因此可以取判别函数: d P P i i i (X X ) = ( ) ( ) 判别规则为: 若 0 ( ) 1 arg max i i M i d = X ,则 0 Xi 这就是贝叶斯分类器的判别准则
下面来看一下M=2的情况,判别准则可以写成: jd(X)≥d2(X),X d2(X)<d1(X),X∈9 进一步可以写成: P(xg2)P(92)≥P(xg2)P(2),X∈92 P(X9)P(92)<P(x2)P(2),X∈92 令:(x)≈P(Xg2) PlS 21 则有 PIXQ P(921) j42(X)≥B1 42(x)<a1,X∈9 其中:l2称为似然比,θ21称为似然比的阈值。 例41 二、贝叶斯分类器的错误率估计 有了贝叶斯分类器的判决准则后,我们还可以计算出误判的概率 P(x92)P(2) P(x92)P(2) 以一维特征和两类别情况为例来进行说明。错误率P(e)是有两部分产生的,一部分是 X实际应该属于21而将X误判为2类(对应于右面部分),一部分X实际应该属于2类 而被误判为g21类(对应左面部分)。因此有: P(l)=[p(x9)P(92)d+Jp(x92)P(92)
35 下面来看一下 M = 2 的情况,判别准则可以写成: ( ) ( ) ( ) ( ) 1 2 1 2 1 2 , , d d d d X X X X X X 进一步可以写成: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 2 2 1 1 1 2 2 2 , , P P P P P P P P X X X X X X 令: ( ) ( ) ( ) 1 12 2 P l P = X X X , ( ) ( ) 2 21 1 P P = ,则有: ( ) ( ) 12 21 1 12 21 2 , , l l X X X X 其中: 12 l 称为似然比, 21 称为似然比的阈值。 例 4.1 二、贝叶斯分类器的错误率估计 有了贝叶斯分类器的判决准则后,我们还可以计算出误判的概率。 以一维特征和两类别情况为例来进行说明。错误率 P e( ) 是有两部分产生的,一部分是 X 实际应该属于 1 而将 X 误判为 2 类(对应于右面部分),一部分 X 实际应该属于 2 类 而被误判为 1 类(对应左面部分)。因此有: ( ) ( 1 1 2 2 ) ( ) ( ) ( ) t t P e p x P dx p x P dx − = +
43最小平均风险准则贝叶斯分类器 前面我们以最小错误率为准则建立的贝叶斯分类器,然而对某些问题来说这样的准则并 不适合。这是因为每次误判所带来的后果并不一样,有一些类别被误判的后果非常严重,而 另一些类别被误判的后果却并不严重,例如对于癌症诊断问题,如果一个癌症患者被误判为 正常,那么后果非常严重,有可能耽误治疗;而一个正常人被误诊为患有癌症,后果并不很 严重,随着进一步的诊断,可以改变这种误判。 下面我们就来介绍一种依据最小平均风险准则的贝叶斯分类器。 设由M个类别,Ω1,Ω23…,ΩM°首先我们需要根据实际问题定义一组数据Ln,表示 将Ω类的样本误判为Ω,类的代价,这应该是一个M×M的矩阵。然后我们可以用下面的 公式计算将未知模式X判别为9,类的平均风险: X)=∑LP(91|X 其中LP(92X)为用L加权的后验概率。因为当我们将X分类为2,时,它有可能是 M类的任何一类,因此总的平均风险就是对加权后的后验概率求和。我们的判决准则应该 是选择一个平均风险最小的类别作为输出的决策类别。因此可以构造判别函数 d, (X)=-y,( 现在的问题同最小错误率准则一样,我们并不知道后验概率P(92|X),而是已知先验 概率P(9)和条件概率P(X92),因此我们还需要使用贝叶斯公式将后验概率转换为先验 概率 y(x)2P(x分4P(x2)P(2) 因为 是公共项,对比较大小没有影响,因此可以舍去 y(x)=∑LP(Xg2)P(2) 现在还是看一下两类问题的情况 将X判别为921类的平均风险为 7(X)=L1P(Xg21)P(4)+L2P(Xo2)P(92) 将X判别为Ω2类的平均风险为
36 4.3 最小平均风险准则贝叶斯分类器 前面我们以最小错误率为准则建立的贝叶斯分类器,然而对某些问题来说这样的准则并 不适合。这是因为每次误判所带来的后果并不一样,有一些类别被误判的后果非常严重,而 另一些类别被误判的后果却并不严重,例如对于癌症诊断问题,如果一个癌症患者被误判为 正常,那么后果非常严重,有可能耽误治疗;而一个正常人被误诊为患有癌症,后果并不很 严重,随着进一步的诊断,可以改变这种误判。 下面我们就来介绍一种依据最小平均风险准则的贝叶斯分类器。 设由 M 个类别, 1 2 , , , M 。首先我们需要根据实际问题定义一组数据 Lij ,表示 将 i 类的样本误判为 j 类的代价,这应该是一个 M M 的矩阵。然后我们可以用下面的 公式计算将未知模式 X 判别为 j 类的平均风险: ( ) ( ) 1 M j ij i i L P = X X = 其中 L Pij i ( X) 为用 Lij 加权的后验概率。因为当我们将 X 分类为 j 时,它有可能是 M 类的任何一类,因此总的平均风险就是对加权后的后验概率求和。我们的判决准则应该 是选择一个平均风险最小的类别作为输出的决策类别。因此可以构造判别函数: dj j (X X ) = − ( )。 现在的问题同最小错误率准则一样,我们并不知道后验概率 P(i X) ,而是已知先验 概率 P(i) 和条件概率 P(X i) ,因此我们还需要使用贝叶斯公式将后验概率转换为先验 概率: ( ) ( ) ( ) ( ) 1 1 M j ij i i i L P P P = X X = X 因为 ( ) 1 P X 是公共项,对比较大小没有影响,因此可以舍去: ( ) ( ) ( ) 1 M j ij i i i L P P = X X = 现在还是看一下两类问题的情况: 将 X 判别为 1 类的平均风险为: 1 11 1 1 21 2 2 (X X X ) = + L P P L P P ( ) ( ) ( ) ( ) 将 X 判别为 2 类的平均风险为: