第二十一讲 分类预测机器学习的6个核心算法(吴恩达,AndrewNgLinearRegression:Straight&NarrowLogisticRegression:FollowtheCurveGradientDescent:It'sAllDownhillNeural Networks:FindtheFunctionDecisionTrees:FromRoottoLeavesK-Means Clustering:GroupThink
第二十一讲 分类预测 1 机器学习的6个核心算法(吴恩达,Andrew Ng) • Linear Regression: Straight & Narrow • Logistic Regression: Follow the Curve • Gradient Descent: It’s All Downhill • Neural Networks: Find the Function • Decision Trees: From Root to Leaves • K-Means Clustering: Group Think
分类(预测、判别)预测(prediction):对未知的随机变量进行“估计”。当待预测随机变量是类别的时候,预测也称为分类(classification)或判别(discriminant(当待预测随机变量是连续变量的时候,称为回归)。y:类别,比如y取0-1类别数据:(yixi)i=1,.,n,x:自变量或特征feature求解p(x)=E(ylx)E(ylx)=p(y= 1|x)是概率训练=argmin(- Z[y;logpi + (1 - yi)log(1 - pi)] )参数估计,拟合曲线y=p(x,)pi = p(xi, 0) = P(yi = 1xi, 0)判别回归:=argminZ(i-f(x0))2预测预测=p(x,0)
2 预测(prediction):对未知的随机变量进行“估计”。当待预测随机变量 是类别的时候,预测也称为分类(classification)或判别(discriminant) (当待预测随机变量是连续变量的时候,称为回归)。 分类(预测、判别) 数据: 𝑦𝑖 , 𝐱𝑖 , 𝑖 = 1, . , 𝑛, 求解 𝑝 𝐱, 𝜃 = 𝐸 𝑦 𝐱 𝜃መ=argmin − σ[𝑦𝑖 log𝑝𝑖 + 1 − 𝑦𝑖 log(1 − 𝑝𝑖)] 𝑝𝑖 = 𝑝 𝐱𝑖 , 𝜃 = 𝑃(𝑦𝑖 = 1|𝐱𝑖 , 𝜃) 𝑦: 类别,比如𝑦取0-1类别 𝐱: 自变量或特征feature 训练 参数估计𝜃መ,拟合曲线𝑦 = 𝑝 𝐱, 𝜃መ 判别 预测 𝑦ො = 𝑝(𝐱, 𝜃መ) 预测 𝐸 𝑦 𝐱 = 𝑝(𝑦 = 1|𝐱)是概率 回归: 𝜃=argminσ(𝑦𝑖−𝑓(𝐱𝑖 , 𝜃)) 2
例1(手写体识别).n=50个数字0-9手写模式Q00QV体样本如右图。每个手写数字是16×16像识别-素图像,每个像素点的值1(黑)或0(白).将--7像素强度矩阵拉直成RP向量,p=196。数据:X1.,XnERP:手写数字的像素向量,y1,,yn:手写体的真实标签(0-9,类)。训练预测(判别)准则:将RP划分成10个区域,资与0-9对应(下图)2直线划分:线性判别、(线性)logistic回归10如果划分准则是曲线,3则是非线性预测,比如神经网络。预测:判别新的手写体6是什么数字一其向量表示x落在上图哪个区域?33
例1 (手写体识别). 𝑛 = 50 个数字0−9手写 体样本如右图。每个手写数字是16 × 16像 素图像,每个像素点的值1(黑)或0(白).将 像素强度矩阵拉直成𝑅 𝑝向量, 𝑝 = 196。 33 数据: 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑝 : 手写数字的像素向量, 𝑦1, . , 𝑦𝑛: 手写体的真实标签 (0−9,类)。 训练预测(判别)准则: 将𝑅 𝑝划分成10个区域,与0−9对应(下图) 0 2 3 1 直线划分:线性判别、 (线性)logistic回归 如果划分准则是曲线, 则是非线性预测,比如 神经网络。 模式 识别 预测: 判别新的手写体 是什么数字 ⇔ 其向量表示 𝐱 落在上图哪个区域?
统计学分为两大流派:频率学派(Fisher学派,古典)和贝叶斯学两个派(条件概率),随着人工智能的发展,贝叶斯学派越来越被重视。学派对于判别分析,Fisher的方法称为Fisher线性判别分析(LDA:lineardiscriminantanalysis),贝叶斯方法可得到类似的线性判别以及二次判别或其它非线性判别,RonaldFisher(1890-1962)英国统计学家组间与组内平方和:T=W+BThomasBayes(1701-1761),英国统计学家、哲学家,发现了贝叶斯公式。编码与解码:p(zx)与p(xz),z:latentP(x/y)P(y)Z,P(xly=)P(y=1), y:类别p(ylx)-
Ronald Fisher (1890-1962)英国统计学家. Thomas Bayes (1701-1761),英国统计学家、 哲学家,发现了贝叶斯公式。 统计学分为两大流派:频率学派(Fisher学派,古典)和贝叶斯学 派(条件概率) ,随着人工智能的发展,贝叶斯学派越来越被重视。 对于判别分析,Fisher的方法称为Fisher线性判别分析(LDA: linear discriminant analysis), 贝叶斯方法可得到类似的线性 判别以及二次判别或其它非线性判别. 4 两个 学派 编码与解码:𝑝 𝒛 𝐱 与 𝑝 𝐱 𝒛 , 𝒛: 𝑙𝑎𝑡𝑒𝑛𝑡 𝑝 𝑦 𝐱 = 𝑃 𝐱 𝑦 𝑃(𝑦) σ𝑖 𝑃 𝐱 𝑦 = 𝑖 𝑃(𝑦=𝑖) , 𝑦: 类别 组间与组内平方和: 𝑇 = 𝑊 + 𝐵
贝叶斯判别与logistic回归假设xERP,类别两类标号y=0,1,假设两个类的概率密度两类判别/预测xly=1~fi, xly=0~fo如果fi,fo已知(从数据(yi,xi),i=1,,n训练/估计得到),我们希望判别/预测x所属类别(来自于f还是f.?)一个自然的分类方式是比较概率,比如:贝叶斯判别贝叶斯分类判别(分类):阈值c是常数,不同地方出现的C未必相同。若P(y=1/x)>C,则预测y=1记第一类在总体中的比例p=P(y=1),利用贝叶斯公式得pfi(x)P(y = 1/x) =pfi(x)+(1-p)fo(x)exp(a+b(x))pfi(x)/(1-p)fo(x)1+exp(a+b(x))1+pfi(x)/(1-p)fo(x)fi(x))其中 b(x) = log),p = P(y = 1).,a = log(fox5
5 贝叶斯判别与logistic回归 一个自然的分类方式是比较概率,比如: 两类判 别/预测 假设𝐱 ∈ 𝑅 𝑝 , 类别两类标号𝑦 = 0,1, 假设两个类的概率密度 𝐱|𝑦=1~𝑓1, 𝐱|𝑦=0~𝑓0 如果𝑓1,𝑓0已知 (从数据(𝑦𝑖 , 𝐱𝑖) , 𝑖 = 1, . , 𝑛训练/估计得到),我们 希望判别/预测𝐱所属类别(来自于𝑓1还是𝑓0?) 贝叶斯 判别 贝叶斯分类判别(分类): 若 𝑃 𝑦 = 1 𝐱 > 𝑐, 则预测𝑦 = 1. 阈值 𝑐 是常数,不同地 方出现的 𝑐 未必相同。 记第一类在总体中的比例𝑝 = 𝑃 𝑦 = 1 , 利用贝叶斯公式得 𝑃 𝑦 = 1 𝐱 = 𝑝𝑓1 𝐱 𝑝𝑓1 𝐱 +(1−𝑝)𝑓0 𝐱 = 𝑝𝑓1 𝐱 /(1−𝑝)𝑓0 𝐱 1+𝑝𝑓1 𝐱 /(1−𝑝)𝑓0 𝐱 ≜ exp 𝑎+𝑏 𝐱 1+exp 𝑎+𝑏 𝐱 . 其中 𝑏 𝐱 = log 𝑓1 𝐱 𝑓0 𝐱 , 𝑎 = log 𝑝 1−𝑝 , 𝑝 = 𝑃 𝑦 = 1