作者之一简介 Vapnik 《 Statistical Learning Theory》作者 书中详细的论证了统计机器学习之所以区别于 传统机器学习的本质,就在于统计机器学习能 够精确的给出学习效果,能够解答需要的样本 数等等一系列问题。 A》5 BELON
作者之一简介 • Vapnik – 《Statistical Learning Theory》作者 – 书中详细的论证了统计机器学习之所以区别于 传统机器学习的本质,就在于统计机器学习能 够精确的给出学习效果,能够解答需要的样本 数等等一系列问题。 7
SVM理论基础1(比较八股) 统计学习理论的VC维理论 ( Statistical| Learning theory或ST是研究有限样 本情况下机器学习规律的理论 ( Vapnik-Chervonenkis Dimension)反映了函数集 的学习能力,VC维越大则学习机器越复杂 瓦普尼克 统计学习理论 Statistical Learning Theory Statistical Learning Theory s points shattered 4 points impossible 是 ladimir N Vapnik着 一计建平张学 8
SVM理论基础1(比较八股) • 统计学习理论的VC维理论 – (Statistical Learning Theory或SLT)是研究有限样 本情况下机器学习规律的理论 – (Vapnik-Chervonenkis Dimension) 反映了函数集 的学习能力,VC维越大则学习机器越复杂 8
SVM理论基础2(比较八股) 结构风险最小化 机器学习本质上就是一种对问题真实模型的逼 近。这个与问题真实解之间的误差,就叫做风 险 结构化风险=经验风险+置信风险 经验风险=分类器在给定样木上的误差 置信风险=分类器在未知文本上分类的结果的 误差,代表了我们在多大程度上可以信任分类 器在未知文本上分类的结果。(无法准确估值 给出估计的区间)
SVM理论基础2(比较八股) • 结构风险最小化 – 机器学习本质上就是一种对问题真实模型的逼 近。这个与问题真实解之间的误差,就叫做风 险。 – 结构化风险 = 经验风险 + 置信风险 – 经验风险 = 分类器在给定样本上的误差 – 置信风险 = 分类器在未知文本上分类的结果的 误差,代表了我们在多大程度上可以信任分类 器在未知文本上分类的结果。(无法准确估值, 给出估计的区间) 9
SVM理论基础2(比较八股) 结构化风险=经验风险+置信风险 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可 能正确,此时置信风险越小; ·分类函数的vC维,显然VC维越大,推广能力越差, 置信风险会变大。 泛化误差界的公式* R(WsRemp(w)+op(n/h) 公式中Rw)就是真实风险,Remp(Ww)就是经验风险, φ(n/h就是置信风险。 ·统计学习的目标从经验风险最小化变为了寻求经验 风险与置信风险的和最小,即结构风险最小
SVM理论基础2(比较八股) • 结构化风险 = 经验风险 + 置信风险 – 置信风险因素: • 样本数量,给定的样本数量越大,学习结果越有可 能正确,此时置信风险越小; • 分类函数的VC维,显然VC维越大,推广能力越差, 置信风险会变大。 • 泛化误差界的公式* – R(w)≤Remp(w)+Ф(n/h) • 公式中R(w)就是真实风险,Remp(w)就是经验风险, Ф(n/h)就是置信风险。 • 统计学习的目标从经验风险最小化变为了寻求经验 风险与置信风险的和最小,即结构风险最小。 10
SVM理论基础(小结) 统计学习理论的VC维理论 SVM关注的是VC维 结构风险最小化 R(W)sRemp(w)+p(n/h)
SVM理论基础(小结) • 统计学习理论的VC维理论 – SVM关注的是VC维 • 结构风险最小化 – R(w)≤Remp(w)+Ф(n/h) 11