第1篇监督学习
第1章统计学习及监督学习概论 本书第1篇讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问 题,是统计学习或机器学习的重要组成部分。 本章简要叙述统计学习及监督学习的一些基本概念。使读者对统计学习及监督学 习有初步了解。 本章1.1节叙述统计学习或机器学习的定义、研究对象与方法:1.2节叙述统计 学习的分类,基本分类是监督学习、无监督学习、强化学习:1.3节叙述统计学习方法 的三要素:模型、策略和算法;1.4节至1.7节相继介绍监督学习的几个重要概念,包 括模型评估与模型选择、正则化与交叉验证、学习的泛化能力、生成模型与判别模型: 最后1.8节介绍监督学习的应用:分类问题,标注问题与回归问题。 1.1统计学习 1.统计学习的特点 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用 模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。 统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机 及网络上的:(2)统计学习以数据为研究对象,是数据驱动的学科:(3)统计学习的目 的是对数据进行预测与分析:(4)统计学习以方法为中心,统计学习方法构建模型并 应用模型进行预测与分析:(5)统计学习是概率论、统计学、信息论、计算理论、最优 化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系 与方法论。 赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下定义:“如果一个系统 能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计 算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器 学习时,往往是指统计机器学习。所以可以认为本书介绍的是机器学习方法
第1章统计学习及监督学习概论 2.统计学习的对象 统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数 据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对 象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频 数据以及它们的组合。 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习 的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、 数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法处理它们。 比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计 学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本 书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数 据讲行分析与预测,对数据的观侧和收集等问颗不作寸论。 3.统计学习的目的 统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据 的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高:对数据的分 析可以让人们获取新的知识,给人们带来新的发现。 对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考 虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同 时也要考虑尽可能地提高学习效率。 4.统计学习的方法 统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计 学习由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化 学习(reinforcement learning)等组成 本书第1篇讲述监督学习,第2篇讲述无监督学习。可以说监督学习、无监督学 习方法是最主要的统计学习方法。 统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的:并且假设要学习的模型属于某 个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数 据(test data)在给定的评价准则下有最优的预测:最优模型的选取由算法实现。这样, 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统 计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。 实现统计学习方法的步骤如下: (1)得到一个有限的训练数据集合:
1.2统计学习的分类 (2)确定包含所有可能的模型的假设空间,即学习模型的集合: (3)确定模型选择的准则,即学习的策略: (4)实现求解最优模型的算法,即学习的算法 (5)通过学习方法选择最优模型: (6)利用学习的最优模型对新数据进行预测或分析。 本书第1篇介绍监督学习方法,主要包括用于分类、标注与回归问题的方法。这 些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着极其广泛的应用。 5.统计学习的研究 统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。 统计学习方法的研究旨在开发新的学习方法:统计学习理论的研究在于探求统计学习 方法的有效性与效率,以及统计学习的基本理论问题:统计学习应用的研究主要考虑 将统计学习方法应用到实际问题中去,解决实际问题。 6.统计学习的重要性 近二十年来,统计学习无论是在理论还是在应用方面都得到了巨大的发展,有许 多重大突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言 处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中,并且成为 这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥 越来越大的作用。 统计学习学科在科学技术中的重要性主要体现在以下几个方面: (1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量 数据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确 定性,统计学习往往是处理这类数据最强有力的工具。 (2)统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也 是计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究证明,利 用统计学习模仿人类智能的方法,虽有一定的局限性,还是实现这一目标的最有效 手段。 (3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三 维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用。 1.2统计学习的分类 统计学习或机器学习是一个范围宽阔、内容繁多、应用广泛的领域,并不存在(至 少现在不存在)一个统一的理论体系涵盖所有内容。下面从几个角度对统计学习方法 进行分类
6 第1章统计学习及监督学习概论 1.2.1基本分类 统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半 监督学习、主动学习。 1.监督学习 监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问 题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监 督学习的本质是学习输入到输出的映射的统计规律。 (1)输入空间、特征空间和输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(iput space)与输出空间(output space)。输入与输出空间可以是有限元素的集合,也可以 是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间:但 通常输出空间远远小于输入空间。 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示, 这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对 应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分:有时 假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实 际上都是定义在特征空间上的。 在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随 机变量的取值。输入输出变量用大写字母表示,习惯上输入变量写作X,输出变量写 作Y。输入输出变量的取值用小写字母表示,输入变量的取值写作x,输出变量的取 值写作。变量可以是标量或向量,都用相同类型字母表示。除特别声明外,本书中向 量均为列向量。输入实例x的特征向量记作 x=(e0,z回,…,间,…,r)T x句表示x的第i个特征。注意x)与x:不同,本书通常用x,表示多个输入变量中 的第。个变量,即 4=(”,9,…,) 监督学习从训练数据(training data)集合中学习模型,对测试数据(test data) 进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为 T={x1,h),(e2,2),·,(cN,N} 测试数据也由输入与输出对组成。输入与输出对又称为样本(sample)或样本点