例子(2) 问题 有某种医学测试方法,在患有某种癌症的病人身上测试,返回阳性的概率 为98%,在没有这种癌症的病人身上测试,返回阴性的概率为97%。经专 家统计,所有人口中患这种癌症的概率为约0.8% 请问,如果某人的检测结果为阳性,他到底有没有得这种癌症? 解答 已知 P(+ cancer)=0.98 P(no cancer)=0.97 P(cancer)=0.008 计算 P( Cancer cancer)P(cancer) P(+cancer P(cancer )+P(+ no cancer)p(no cancer 098×0.008 ≈0.2085 0.98×0.008+(1-0.97)×(1-0.008) ·由于P( no cancer+)>P( cancer|+),根据贝叶斯决策规则,该病人没有 得癌症
例子(2) • 问题 • 有某种医学测试方法,在患有某种癌症的病人身上测试,返回阳性的概率 为98%,在没有这种癌症的病人身上测试,返回阴性的概率为97%。经专 家统计,所有人口中患这种癌症的概率为约0.8%。 请问,如果某人的检测结果为阳性,他到底有没有得这种癌症? • 解答 • 已知 • 计算 • 由于 ,根据贝叶斯决策规则,该病人没有 得癌症
如何确定概率? 应用贝叶斯决策规则,需已知如下概率 p(x|)P() 对于某个具体问题,常常需要通过实验统计相对 频率,或者利用概率密度估计技术来确定如上概 率
如何确定概率? • 应用贝叶斯决策规则,需已知如下概率 • 对于某个具体问题,常常需要通过实验统计相对 频率,或者利用概率密度估计技术来确定如上概 率 ( | )i p x ( ) P i
例子 题: ·在某大学校园内,根据轿车车身高度判断其价格是否超 过5万美元? C1: price> $50K C2: price $50K Feature x: height of car 解答: 贝叶斯规则P(C|x) p(x CP(Ci p(x) 需计算:PC),PC2),p(C,p(x|C2
例子 • 问题: • 在某大学校园内,根据轿车车身高度判断其价格是否超 过5万美元? • C1: price > $50K • C2: price < $50K • Feature x: height of car • 解答: • 贝叶斯规则 • 需计算:P(C1 ), P(C2 ), p(x|C1 ), p(x|C2 ) ( | ) ( ) ( | ) ( ) i i i p x C P C P C x p x =
例子 ·计算先验概率PC),P(C2) ·方式:在校园里随机挑选1209辆车,询问车主车价,并且测量 车身高度 结果:1209 samples:#C1=221#C2=988 2.5 P(C1) 221 =0.183 1209 兴ocsooE" 1.5 C)=988 P( 0.817 1209 0.5 0 0.5 1.5 Car Height [m]
例子 • 计算先验概率P(C1 ), P(C2 ): • 方式:在校园里随机挑选1209辆车,询问车主车价,并且测量 车身高度 • 结果: 1209 samples: #C1=221 #C2=988 1 2 221 ( ) 0.183 1209 988 ( ) 0.817 1209 P C P C = = = =
例子 计算类条件概率密度p(xC),p(x|C2小: 方式:将车身高度x离散化为16个区间(每个区间宽度01m) 对每个类别C,C2,统计每个区间内的样本个数占类内样 本总数的比例 例如: 2 C1(prce>$50K)中 共有221个样本, 02 其中,0.95<X1.05(离 CI 散化后即×=10)的样本 015 有46个样本,则 C2 p(x=1.0C1 46 221 =0.2081 59 pD(x=1.0|C2) 2 988 Car Height [ml 0.0597
例子 • 计算类条件概率密度p(x|C1 ), p(x|C2 ): • 方式:将车身高度x离散化为16个区间(每个区间宽度0.1m) ,对每个类别C1,C2 ,统计每个区间内的样本个数占类内样 本总数的比例 例如: C1( price > $50K)中 共有221个样本, 其中,0.95<x<1.05(离 散化后即x=1.0)的样本 有46个样本,则: 1 46 ( 1.0 | ) 221 0.2081 p x C = = = 2 59 ( 1.0 | ) 988 0.0597 p x C = = =