Statistics are used much like a drunk uses a lamppost: for support, not illumination
Statistics are used much like a drunk uses a lamppost: for support, not illumination
Pattern Classification Statistical Approach Non-Statistical Approach Supervised Unsupervised Decision-tree Basic concepts. Basic concepts Syntactic approach Baysian decision rule Distance (MPP, LR, Discri) Agglomerative method Parameter estimate(ML, BL) K-means Non-Parametric learning(kNN Winner-take-all LDF(Perceptron) Kohonen maps NN (BP, Hopfield, DL Support Vector Machine Dimensionality Performance EvaluationStochastic Methods Classifier Fusion Reduction ROC curve(TP, TN, FN, FP) local opt(GD majority voting FLD, PCA cross validation global opt(SA, GA) NB, BKS
Pattern Classification Statistical Approach Non-Statistical Approach Supervised Unsupervised Basic concepts: Distance Agglomerative method Basic concepts: Baysian decision rule (MPP, LR, Discri.) Parameter estimate (ML, BL) Non-Parametric learning (kNN) LDF (Perceptron) K-means Winner-take-all Kohonen maps Dimensionality Reduction FLD, PCA Performance Evaluation ROC curve (TP, TN, FN, FP) cross validation Classifier Fusion majority voting NB, BKS Stochastic Methods local opt (GD) global opt (SA, GA) Decision-tree Syntactic approach NN (BP, Hopfield, DL) Support Vector Machine
什么是贝叶斯法则 ●统计学中有一个基本的工具叫贝叶斯法则、也称为贝叶斯 式。 ●如果你看到一个人总是做一些好事,则那个人多半会是 个好人。这就是说,当你不能准确知悉一个事物的本质时, 你可以依靠与事物特定本质相关的事件出现的多少去判断 其本质属性的概率, ●用数学语言表达就是:支持某项属性的事件发生得愈多, 则该属性成立的可能性就愈大
什么是贝叶斯法则 统计学中有一个基本的工具叫贝叶斯法则、也称为贝叶斯 公式。 如果你看到一个人总是做一些好事,则那个人多半会是一 个好人。这就是说,当你不能准确知悉一个事物的本质时, 你可以依靠与事物特定本质相关的事件出现的多少去判断 其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多, 则该属性成立的可能性就愈大
应用一:SVM分类 ●支持向量机本身是一种监督式学习的方法,它广泛的应用 于统计分类以及回归分析中 支持向量机(SⅥM)是90年代中期发展起来的基于统计学 习理论的一种机器学习方法,通过寻求结构化风险最小来 提高学习机泛化能力,实现经验风险和置信范围的最小化, 从而达到在统计样本量较少的情况下,亦能获得良好统计 规律的目的。 ●通俗来讲,它是一种二类分类模型,其基本模型定义为特 征空间上的间隔最大的线性分类器,即支持向量机的学习 策略便是间隔最大化,最终可转化为一个凸二次规划问题 的求解
应用一:S VM分类 支持向量机本身是一种监督式学习的方法,它广泛的应用 于统计分类以及回归分析中。 支持向量机(SVM)是90年代中期发展起来的基于统计学 习理论的一种机器学习方法,通过寻求结构化风险最小来 提高学习机泛化能力,实现经验风险和置信范围的最小化, 从而达到在统计样本量较少的情况下,亦能获得良好统计 规律的目的。 通俗来讲,它是一种二类分类模型,其基本模型定义为特 征空间上的间隔最大的线性分类器,即支持向量机的学习 策略便是间隔最大化,最终可转化为一个凸二次规划问题 的求解
线性分类 ●这里我们考虑的是一个两类的分类问题,数据点用x来表 示,这是一个n维向量,wT中的T代表转置,而类别 用y来表示,可以取1或者-1,分别代表两个不同的类。 个线性分类器的学习目标就是要在n维的数据空间中找 到一个分类超平面,其方程可以表示为: 02+b=0 ●下面举个简单的例子,一个二维平面(一个超平面,在二 维空间中的例子就是一条直线),如下图所示,平面上有两 种不同的点,一种为红颜色的点,另一种则为蓝颜色的点, 红颜色的线表示一个可行的超平面
线性分类 这里我们考虑的是一个两类的分类问题,数据点用 x 来表 示,这是一个 n 维向量,w^T中的T代表转置,而类别 用 y 来表示,可以取 1 或者 -1 ,分别代表两个不同的类。 一个线性分类器的学习目标就是要在 n 维的数据空间中找 到一个分类超平面,其方程可以表示为: 下面举个简单的例子,一个二维平面(一个超平面,在二 维空间中的例子就是一条直线),如下图所示,平面上有两 种不同的点,一种为红颜色的点,另一种则为蓝颜色的点, 红颜色的线表示一个可行的超平面