有京大赞 选择性集成 金ERS (Selective Ensemble) 周志华 http://cs.nju.edu.cn/people/zhouzh/ Email:zhouzh@nju.edu.cn 南京大学计算机软件新技术国家重点实验室
选择性集成 (Selective Ensemble) 周志华 http://cs.nju.edu.cn/people/zhouzh/ Email: zhouzh@nju.edu.cn 南京大学计算机软件新技术国家重点实验室
泛化能力 泛化:generalization 泛化能力越强,处理新数据的能力越好 泛化能力是机器学习关注的基本问题之一 提高泛化能力是永远的追求
泛化:generalization 泛化能力越强,处理新数据的能力越好 泛化能力是机器学习关注的基本问题之一 提高泛化能力是永远的追求 泛化能力
集成学习 集成学习(Ensemble Learning)是一种机器学习范式, 它使用多个(通常是同质的)学习器来解决同一个问题 集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成 问题 问题 0 0
集成学习(Ensemble Learning)是一种机器学习范式, 它使用多个(通常是同质的)学习器来解决同一个问题 集成学习 问题 … ... … ... 问题 集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成” …… ……
集成学习的重要性 问题:对20维超立方体空间中的 。bes时·maj.o-plur 区域分类 25 20 左图中纵轴为错误率 15 probability 从上到下的四条线分别表示: of error 10 平均神经网络错误率 最好神经网络错误率 6 81012141618 20 chance of bitinversion in test set 两种神经网络集成的错误率 Fig.4.Performance versus noise level in the test set is shown for individ- ual and for consensus decisions.Data displayed shows the average and 令人惊奇的是,集成的错误率比 the best network,as well as collective decisions using majority and plu- rality for seven networks trained on individual training sets. 最好的个体还低 [L.K.Hansen P.Salamon,TPAMI90] 由于集成学习技术可以有效地提高学习系统的泛化能力, 因此它成为国际机器学习界的研究热点,并被国际权威 T.G.Dietterich称为当前机器学习四大研究方向之首T.G Dietterich,AIMag97]
由于集成学习技术可以有效地提高学习系统的泛化能力, 因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首[T.G. Dietterich, AIMag97] 集成学习的重要性 问题:对20维超立方体空间中的 区域分类 左图中纵轴为错误率 从上到下的四条线分别表示: 平均神经网络错误率 最好神经网络错误率 两种神经网络集成的错误率 令人惊奇的是,集成的错误率比 最好的个体还低 [L.K. Hansen & P. Salamon, TPAMI90]
集成学习的用处 集成学习技术已经在行星探测、地震波分析、 Wb信息过滤、生物特征识别、计算机辅助医 疗诊断等众多领域得到了广泛的应用 只要能用到机器学习的地方,就能用到 集成学习
集成学习的用处 集成学习技术已经在行星探测、地震波分析、 Web信息过滤、生物特征识别、计算机辅助医 疗诊断等众多领域得到了广泛的应用 只要能用到机器学习的地方,就能用到 集成学习