参考文献 2021年5月18日 21 LeCun Y.BottouLBengio Y,et.Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,86(11):2278-2324. McClelland JL Rumelhart DE,Group PR,198.Parallel distributed processing:Explorations in the microstructure of cognition.volume:foundations&volume:Psychological and biological models[M)MIT Press. Minsky M.1961.Steps toward artificial intelligence[J.Proceedings of the IRE,49(1):8-30. Rosenblatt F,1958.The perceptron:a probabilistic model for information storage and organization in the brain.IJl.Psvchological review.65(6):386. SchmidhuberJ,1992.Learning complex,extended sequences using the principle of history com pression Neural Computation,4():34-4 Werbos P.1974.Beyond regression:New tools for prediction and analysis in the behavioral sciences [D].Harvard University. https://nndl.github.io/
参考文献 2021 年 5 月 18 日 21 LeCun Y, Bottou L, Bengio Y, et al., 1998. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 86(11):2278-2324. McClelland J L, Rumelhart D E, Group P R, 1986. Parallel distributed processing: Explorations in the microstructure of cognition. volume i: foundations & volume ii: Psychological and biological models[M]. MIT Press. Minsky M, 1961. Steps toward artificial intelligence[J]. Proceedings of the IRE, 49(1):8-30. Rosenblatt F, 1958. The perceptron: a probabilistic model for information storage and organization in the brain.[J]. Psychological review, 65(6):386. Schmidhuber J, 1992. Learning complex, extended sequences using the principle of history compression[J]. Neural Computation, 4(2):234-242. Werbos P, 1974. Beyond regression: New tools for prediction and analysis in the behavioral sciences [D]. Harvard University. https://nndl.github.io/
第2章 机器学习概述 机器学习是对能通过经验自动改进的计算机算法的研究。 -场号-来切尔(Tom Mitchell)[Mitchell.1997 通俗地讲,机器学习(Machine Learning,ML)就是让计算机从数据中进 行自动学习,得到某种知识(或规律),作为一门学科,机器学习通常指一类问题 以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习 到的规律(模型)对未知或无法观测的数据进行预测 在早期的工程领域,机器学习也经常称为模式识别(Pattern Recognition, P),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸 识别等.这些任务的特点是,对于我们人类而言,这些任务很容易完成,但我们不 知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务. 一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中 的规律,并用来完成各种识别任务.随着机器学习技术的应用越来越广,现在机 器学习的概念逐渐替代模式识别,成为这一类问题及其解决方法的统称 以手写体数字识别为例,我们需要让计算机能自动识别手写的数字。比如 图2.1中的例子,将5识别为数字5,将(0识别为数字6.手写数字识别是一个经典 的机器学习任务,对人来说很简单,但对计算机来说却十分困难,我们很难总结 每个数字的手写体特征,或者区分不同数字的规则,因此设计一套识别算法是 项几乎不可能的任务.在现实生活中,很多问题都类似于手写体数字识别这类问 题,比如物体识别、语音识别等.对于这类问题,我们不知道如何设计一个计算机 程序来解决,即使可以通过一些启发式规则来实现,其过程也是极其复杂的.因 此,人们开始尝试采用另一种思路,即让计算机“看”大量的样本,并从中学习到 一些经验,然后用这些经验来识别新的样本.要识别手写体数字,首先通过人工 标注大量的手写体数字图像(即每张图像都通过人工标记了它是什么数字),这 些图像作为训练数据,然后通过学习算法自动生成一套模型,并依靠它来识别新
第2章 机器学习概述 机器学习是对能通过经验自动改进的计算机算法的研究. ——汤姆·米切尔(Tom Mitchell)[Mitchell, 1997] 通俗地讲,机器学习(Machine Learning,ML)就是让计算机从数据中进 行自动学习,得到某种知识(或规律).作为一门学科,机器学习通常指一类问题 以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习 到的规律(模型)对未知或无法观测的数据进行预测. 在早期的工程领域,机器学习也经常称为模式识别(Pattern Recognition, PR),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸 识别等.这些任务的特点是,对于我们人类而言,这些任务很容易完成,但我们不 知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务. 一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中 的规律,并用来完成各种识别任务.随着机器学习技术的应用越来越广,现在机 器学习的概念逐渐替代模式识别,成为这一类问题及其解决方法的统称. 以手写体数字识别为例,我们需要让计算机能自动识别手写的数字.比如 图2.1中的例子,将 识别为数字 5,将 识别为数字 6.手写数字识别是一个经典 的机器学习任务,对人来说很简单,但对计算机来说却十分困难.我们很难总结 每个数字的手写体特征,或者区分不同数字的规则,因此设计一套识别算法是一 项几乎不可能的任务.在现实生活中,很多问题都类似于手写体数字识别这类问 题,比如物体识别、语音识别等.对于这类问题,我们不知道如何设计一个计算机 程序来解决,即使可以通过一些启发式规则来实现,其过程也是极其复杂的.因 此,人们开始尝试采用另一种思路,即让计算机“看”大量的样本,并从中学习到 一些经验,然后用这些经验来识别新的样本.要识别手写体数字,首先通过人工 标注大量的手写体数字图像(即每张图像都通过人工标记了它是什么数字),这 些图像作为训练数据,然后通过学习算法自动生成一套模型,并依靠它来识别新
2.1基本概念 2021年5月18日 的手写体数字.这个过程和人类学习过程也比较类似,我们教小孩子识别数字也 是这样的过程这种通过数据来学习的方法就称为机器学习的方法, bD0)000000000DD0000D 222上2Q2228222222302 83333333333333333333 44444H49444444449919 655555 555555555 b606g0Gb6G6666b6b6p6 7717??777子71177}177 8888888888888P昌888¥4 A9999992199999999994 图2.1手写体数字识别示例(图片来源:LeCun et al,.1998)) 本章先介绍机器学习的基本概念和基本要素,并较详细地描述一个简单的 机器学习例子一线性回归. 2.1基本概念 首先我们以一个生活中的例子来介绍机器学习中的一些基本概念:样本、特 征、标签、模型、学习算法等,假设我们要到市场上购买芒果,但是之前毫无挑选 芒果的经验,那么如何通过学习来获取这些知识? 首先,我们从市场上随机选取一些芒果,列出每个芒果的特征(Feature), 特征也可以称为属 包括颜色、大小、形状、产地、品牌,以及我们需要预测的标签(Labl).标签可以 (Attribute). 是连续值(比如关于芒果的甜度、水分以及成熟度的综合打分),也可以是离散 值(比如“好”“坏”两类标签).这里,每个芒果的标签可以通过直接品尝来获得」 也可以通过请一些经验丰富的专家来进行标记. 我们可以将一个标记好特征以及标签的芒果看作一个样本(Sample),也 经常称为示例(Instance). 一组样本构成的集合称为数据集(Data Set),一般将数据集分为两部分:在很多领域,数据集也 训练集和测试集.训练集(Training Set)中的样本是用来训练模型的,也叫训练 经常称为语料库(C0 样本(Training Sample),而测试集(Test Set)中的样本是用来检验模型好坏 的,也叫测试样本(Test Sample) 我们通常用一个D维向量x=[x1,x2,…,xDP表示一个芒果的所有特征构 并不是所有的样本精 征都是数值型,雪要透 成的向量,称为特征向量(Feature Vector),其中每一维表示一个特征.而芒果过转接表示为特征向 的标签通常用标量y来表示 量.参见第26节 https://nndl.github.io/
2.1 基本概念 2021 年 5 月 18 日 23 的手写体数字.这个过程和人类学习过程也比较类似,我们教小孩子识别数字也 是这样的过程.这种通过数据来学习的方法就称为机器学习的方法. 图 2.1 手写体数字识别示例(图片来源:[LeCun et al., 1998]) 本章先介绍机器学习的基本概念和基本要素,并较详细地描述一个简单的 机器学习例子——线性回归. 2.1 基本概念 首先我们以一个生活中的例子来介绍机器学习中的一些基本概念:样本、特 征、标签、模型、学习算法等.假设我们要到市场上购买芒果,但是之前毫无挑选 芒果的经验,那么如何通过学习来获取这些知识? 首先,我们从市场上随机选取一些芒果,列出每个芒果的特征(Feature) 特征也可以称为属性 (Attribute). , 包括颜色、大小、形状、产地、品牌,以及我们需要预测的标签(Label).标签可以 是连续值(比如关于芒果的甜度、水分以及成熟度的综合打分),也可以是离散 值(比如“好”“坏”两类标签).这里,每个芒果的标签可以通过直接品尝来获得, 也可以通过请一些经验丰富的专家来进行标记. 我们可以将一个标记好特征以及标签的芒果看作一个样本(Sample),也 经常称为示例(Instance). 一组样本构成的集合称为数据集(Data Set). 在很多领域,数据集也 经常称为语料库(Corpus). 一般将数据集分为两部分: 训练集和测试集.训练集(Training Set)中的样本是用来训练模型的,也叫训练 样本(Training Sample),而测试集(Test Set)中的样本是用来检验模型好坏 的,也叫测试样本(Test Sample). 我们通常用一个𝐷 维向量𝒙 = [𝑥1 , 𝑥2 , ⋯ , 𝑥𝐷] T 表示一个芒果的所有特征构 成的向量,称为特征向量(Feature Vector),其中每一维表示一个特征. 并不是所有的样本特 征都是数值型,需要通 过转换表示为特征向 量,参见第2.6节. 而芒果 的标签通常用标量𝑦来表示. https://nndl.github.io/
2.1基本概念 2021年5月18日 假设训练集D由N个样本组成,其中每个样本都是独立同分布的(Identi. cally and Independently Distributed,ID),即独立地从相同的数据分布中抽取 的,记为 D={x四,y),(x②,y2),…,(xNm,yN). (2.1) 给定训练集D,我们希望让计算机从一个函数集合于={f(x),5(x),中 自动寻找一个“最优”的函数∫(x)来近似每个样本的特征向量x和标签y之间 的真实映射关系.对于一个样本x,我们可以通过函数∫(x)来预测其标签的值 =f(x). (2.2) 或标签的条件概率 p(ylx)=(x). (2.3) 如何寻找这个“最优”的函数∫(x)是机器学习的关键,一 般需要通过学习 在右些文中。 算法(Learning Algorithm)A来完成.这个寻找过程通常称为学习(Learning) 习算法也叫作习 Learner ) 或训练(Training)过程 这样,下次从市场上买芒果(测试样本)时,可以根据芒果的特征,使用学习 到的函数(x)来预测芒果的好坏.为了评价的公正性,我们还是独立同分布地 抽取一组芒果作为测试集D',并在测试集中所有芒果上进行测试,计算预测结 果的准确率 第2.7节中会介绍更多 的评价方法 Acr(x》=可o ∑(x)=y以 (2.4) 其中(为指示函数,D1为测试集大小 图2.2给出了机器学习的基本流程.对一个预测任务,输入特征向量为x,输 出标签为y,我们选择一个函数集合于,通过学习算法A和一组训练样本D,从于 中学习到函数∫(x).这样对新的输入x,就可以用函数f(x)进行预测. →或p0r 输人 学习到的函数 输出 D={四),y) =U(x),f2(x).… 训练样本集合 学习算法 函数集合 图2.2机器学习系统示例 https://nndl.github.io/
2.1 基本概念 2021 年 5 月 18 日 24 假设训练集 𝒟 由 𝑁 个样本组成,其中每个样本都是独立同分布的(Identically and Independently Distributed,IID),即独立地从相同的数据分布中抽取 的,记为 𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2), 𝑦(2)), ⋯ , (𝒙(𝑁), 𝑦(𝑁))}. (2.1) 给定训练集𝒟,我们希望让计算机从一个函数集合ℱ = {𝑓1 (𝒙), 𝑓2 (𝒙), ⋯}中 自动寻找一个“最优”的函数𝑓 ∗ (𝒙) 来近似每个样本的特征向量 𝒙 和标签 𝑦 之间 的真实映射关系.对于一个样本𝒙,我们可以通过函数𝑓 ∗ (𝒙)来预测其标签的值 𝑦 = 𝑓 ̂ ∗ (𝒙), (2.2) 或标签的条件概率 ̂𝑝(𝑦|𝒙) = 𝑓∗ 𝑦 (𝒙). (2.3) 如何寻找这个“最优”的函数 𝑓 ∗ (𝒙) 是机器学习的关键,一般需要通过学习 算法(Learning Algorithm)𝒜 来完成. 在 有 些 文 献 中, 学 习算法也叫作学习器 (Learner). 这个寻找过程通常称为学习(Learning) 或训练(Training)过程. 这样,下次从市场上买芒果(测试样本)时,可以根据芒果的特征,使用学习 到的函数 𝑓 ∗ (𝒙) 来预测芒果的好坏.为了评价的公正性,我们还是独立同分布地 抽取一组芒果作为测试集 𝒟′,并在测试集中所有芒果上进行测试,计算预测结 果的准确率 第2.7节中会介绍更多 的评价方法. 𝐴𝑐𝑐(𝑓∗ (𝒙)) = 1 |𝒟′ | ∑ (𝒙,𝑦)∈𝒟′ 𝐼(𝑓 ∗ (𝒙) = 𝑦), (2.4) 其中𝐼(⋅)为指示函数,|𝒟′ |为测试集大小. 图2.2给出了机器学习的基本流程.对一个预测任务,输入特征向量为 𝒙,输 出标签为𝑦,我们选择一个函数集合ℱ,通过学习算法𝒜和一组训练样本𝒟,从ℱ 中学习到函数𝑓 ∗ (𝒙).这样对新的输入𝒙,就可以用函数𝑓 ∗ (𝒙)进行预测. 𝑓 ∗ (𝒙) 学习到的函数 𝒙 输入 𝑦̂或 𝑝(𝑦|𝒙) ̂ 输出 𝒜 学习算法 𝒟 = {(𝒙(𝑛), 𝑦(𝑛))}𝑁 𝑛=1 训练样本集合 ℱ = {𝑓1 (𝒙), 𝑓2 (𝒙), ⋯} 函数集合 图 2.2 机器学习系统示例 https://nndl.github.io/
2.2机器学习的三个基本要素 2021年5月18日 25 2.2机器学习的三个基本要素 机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并 可以将总结出来的规律推广应用到未观测样本上.机器学习方法可以粗略地分 为三个基本要素:模型、学习准则、优化算法. 2.2.1模型 对于一个机器学习任务,首先要确定其输入空间x和输出空间从.不同机器 学习任务的主要区别在于输出空间不同.在二分类问题中y={+1,-1,在C分 类问题中y={1,2,…,C,而在回归问题中y=R. 这里,输入空间骏认为 样本的特延空间 输入空间x和输出空间y构成了一个样本空间.对于样本空间中的样本 (x,y)∈x×y,假定x和y之间的关系可以通过一个未知的真实映射函数y= g(x)或真实条件概率分布P,心yx)来描述.机器学习的目标是找到一个模型来近唤射数g:x一出 似真实映射函数g(x)或真实条件概率分布P,yx). 由于我们不知道真实的映射函数g(x)或条件概率分布P心yx)的具体形式, 因而只能根据经验来假设一个函数集合,称为假设空间(Hypothesis Space), 然后通过观测其在训练集D上的特性,从中选择一个理想的假设(Hypothesis)》 f∈于 假设空间于通常为一个参数化的函数族 于={fx:e)Ie∈RD (2.5) 其中f(x;)是参数为日的函数,也称为模型(Model),D为参数的数量. 常见的假设空间可以分为线性和非线性两种,对应的模型∫也分别称为线 性模型和非线性模型。 2.2.1.1线性模型 线性模型的假设空间为一个参数化的线性函数族,即 对于分类问题,一般为 广义线性函数,参见公 f(x:6)=x+b, (2.6)式(33) 其中参数日包含了权重向量w和偏置b. 2.2.1.2非线性模型 广义的非线性模型可以写为多个非线性基函数(x)的线性组合 f(x;0)=w(x)+b, (2.7) https://nndl.github.io/
2.2 机器学习的三个基本要素 2021 年 5 月 18 日 25 2.2 机器学习的三个基本要素 机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并 可以将总结出来的规律推广应用到未观测样本上.机器学习方法可以粗略地分 为三个基本要素:模型、学习准则、优化算法. 2.2.1 模型 对于一个机器学习任务,首先要确定其输入空间𝒳 和输出空间𝒴.不同机器 学习任务的主要区别在于输出空间不同.在二分类问题中𝒴 = {+1, −1},在𝐶 分 类问题中𝒴 = {1, 2, ⋯ , 𝐶},而在回归问题中𝒴 = ℝ. 这里,输入空间默认为 样本的特征空间. 输入空间 𝒳 和输出空间 𝒴 构成了一个样本空间.对于样本空间中的样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴,假定 𝒙 和 𝑦 之间的关系可以通过一个未知的真实映射函数𝑦 = 𝑔(𝒙) 或真实条件概率分布𝑝𝑟 (𝑦|𝒙) 来描述.机器学习的目标是找到一个模型来近 映射函数𝑔 ∶ 𝒳 → 𝒴. 似真实映射函数𝑔(𝒙)或真实条件概率分布𝑝𝑟 (𝑦|𝒙). 由于我们不知道真实的映射函数𝑔(𝒙)或条件概率分布𝑝𝑟 (𝑦|𝒙)的具体形式, 因而只能根据经验来假设一个函数集合ℱ,称为假设空间(Hypothesis Space), 然后通过观测其在训练集 𝒟 上的特性,从中选择一个理想的假设(Hypothesis) 𝑓 ∗ ∈ ℱ. 假设空间ℱ 通常为一个参数化的函数族 ℱ = {𝑓(𝒙; 𝜃)|𝜃 ∈ ℝ𝐷}, (2.5) 其中𝑓(𝒙; 𝜃)是参数为𝜃 的函数,也称为模型(Model),𝐷 为参数的数量. 常见的假设空间可以分为线性和非线性两种,对应的模型 𝑓 也分别称为线 性模型和非线性模型. 2.2.1.1 线性模型 线性模型的假设空间为一个参数化的线性函数族,即 对于分类问题,一般为 广义线性函数,参见公 𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏, (2.6) 式(3.3). 其中参数𝜃 包含了权重向量𝒘和偏置𝑏. 2.2.1.2 非线性模型 广义的非线性模型可以写为多个非线性基函数𝜙(𝒙)的线性组合 𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏, (2.7) https://nndl.github.io/