常用符号表 x.y,m.n.t 标量,通常为变量 K,L,D.M.N,T 标量,通常为超参数 x∈RD D维列向量 D维行向层 [x,…,xDor[x1;;xD】D维列向量 Oor Op (D维)全0向量 1or 1n (D维)全1向量 li(x) 第i维为1(或x),其余为0的one-hot列向量 向量x的转置 A∈RKxD 大小为K×D的矩阵 x∈RKD (KD)维的向量 M:or Mi(x) 第i列为1(成x),其余为0的矩鸡 diag(x) 对角矩阵,其对角线元素为x Iy or I (N×N的)单位阵 diag(A) 列向量,其元素为A的对角线元素 A∈RD1xD2xxD 大小为D1×D2×·×Dx的张量 eorfx(n)w 集合 Dor {(x(n).y(n)) 数据集 RD D维实数空间 N(u,E)or N(x:H,Z (变量x服从)均值为以,方差为Σ的正态(高斯)分布 Ex-p()[f(x)] 期望 varx-po)[f(x)] 方差 exp(x) 指数函数,默认指以自然常数为底的自然指数函数 log(x) 对数函数,默认指以自然常数©为底的自然对数函数 定义符号 I(x) 指示函数.当x为真时,I(x)=1:否则1(x)=0
常用符号表 𝑥, 𝑦, 𝑚, 𝑛, 𝑡 标量,通常为变量 𝐾, 𝐿, 𝐷, 𝑀, 𝑁, 𝑇 标量,通常为超参数 𝒙 ∈ ℝ𝐷 𝐷 维列向量 [𝑥1 , ⋯ , 𝑥𝐷] 𝐷 维行向量 [𝑥1 , ⋯ , 𝑥𝐷] T or [𝑥1 ; ⋯ ; 𝑥𝐷] 𝐷 维列向量 0 or 0𝐷 (𝐷 维)全0向量 1 or 1𝐷 (𝐷 维)全1向量 𝕀𝑖 or 𝕀𝑖 (𝑥) 第𝑖 维为1(或𝑥),其余为0的one-hot列向量 𝒙 T 向量𝒙的转置 𝑨 ∈ ℝ𝐾×𝐷 大小为𝐾 × 𝐷 的矩阵 𝒙 ∈ ℝ𝐾𝐷 (𝐾𝐷)维的向量 𝕄𝑖 or 𝕄𝑖 (𝒙) 第𝑖 列为1(或𝒙),其余为0的矩阵 diag(𝒙) 对角矩阵,其对角线元素为𝒙 𝑰𝑁 or 𝑰 (𝑁 × 𝑁 的)单位阵 diag(𝑨) 列向量,其元素为𝑨的对角线元素 𝒜 ∈ ℝ𝐷1×𝐷2×⋯×𝐷𝐾 大小为𝐷1 × 𝐷2 × ⋯ × 𝐷𝐾 的张量 𝒞 or {𝑥(𝑛)} 𝑁 𝑛=1 集合 𝒟 or {(𝒙(𝑛), 𝑦(𝑛))}𝑁 𝑛=1 数据集 ℝ𝐷 𝐷 维实数空间 𝒩(𝜇, Σ) or 𝒩(𝒙; 𝜇, Σ) (变量𝒙服从)均值为𝜇、方差为Σ的正态(高斯)分布 𝔼𝒙∼𝑝(𝒙)[𝑓(𝒙)] 期望 var𝒙∼𝑝(𝒙)[𝑓(𝒙)] 方差 exp(𝑥) 指数函数,默认指以自然常数e为底的自然指数函数 log(𝑥) 对数函数,默认指以自然常数e为底的自然对数函数 ≜ 定义符号 𝐼(𝑥) 指示函数.当𝑥为真时,𝐼(𝑥) = 1;否则𝐼(𝑥) = 0
目 录 序 前言 常用符号表 第一部分机器学习基础 1 第1章绪论 2 1.1人工智能 3 1.1.1 人工智能的发展历史 4 112人工智能的流派........。.。。。。。。。,。。。。, 6 1.2机器学习 6 1.3 表示学习 。。。。。+。。。。。。。。。。。 7 131局部表示和分布式表示··。··············· 8 132表示学习··· o 14深度学习.。· 141端到端学习…··。···· 11 1.5 神经网络 0。。。。。4。。。。。t。。,。g。。。g。。+。4 1.5.1人脑神经网络 2 152人工动经网终 13 1.5.3 神经网络的发展历史 1.6本书的知识体系. 16 1.7常用的深度学习框架 ”4”””。””。,””””””””””··”4 19 第2章机器学习概述 3 2.1基本概念 。。。。。。。。年。。。。。。。。。。。。4 23 2.2 机器学习的三个基本要素 221摸型 2.2.2 26
目 录 序 前言 常用符号表 第一部分 机器学习基础 1 第1章 绪论 2 1.1 人工智能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 人工智能的发展历史 . . . . . . . . . . . . . . . . . . . . 4 1.1.2 人工智能的流派 . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.1 局部表示和分布式表示 . . . . . . . . . . . . . . . . . . . 8 1.3.2 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 深度学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.1 端到端学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5.1 人脑神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5.2 人工神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 13 1.5.3 神经网络的发展历史 . . . . . . . . . . . . . . . . . . . . 14 1.6 本书的知识体系 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.7 常用的深度学习框架 . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.8 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 第2章 机器学习概述 22 2.1 基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 机器学习的三个基本要素 . . . . . . . . . . . . . . . . . . . . . . 25 2.2.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 学习准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
目录 I 2.2.3 倪化算法··。· ,。。,。,。:。。。。。。。,。。, 29 23机器学习的简单示例一线性回归················ 32 2.4 偏差方差分解 。…·。…。……·。·。…。……4。。。。·。。4 37 2.5机器学习算法的类型 40 2.6数据的特征表示 。。。。。。。。。。。。。。。。。。。。。。。。。 42 2.6.1传统的特征学习·······。············· 2.6.2深度学习方法 2.7 评价指标 。。。。。。。。4。。。。。。。。。。。。。。。。。。。。 45 2.8理论和定理. 2.8.1PAC学习理论 。。。。。·。·。。。。。…。。。,。。。 48 2.8.2 没有免费午餐定理··· 2.8.3 奥卡姆剃刀原理 9 2.8.4 丑小鸭定理。。…· 2.8.5 % 2.9总结和深入阅读 50 第3章线性模型 53 3.1线性判别函数和决策边界 3.1.1二分类 3.1.2 多分类 3.2 Logistic回归 51 3.2.1参数学习 。。。。。。。。。。,。。。。。。。。。,。,。。 8 331参数学习·····…… 3.4感知器 。。。。。。。,。·。。。。。。。。。,。。。 3.4.1 泉数堂习 62 3.4.2 感知器的收敛性 。+””””。””4””。”””+”” 4 3.4.3 参数平均感知器 6 344扩展到多分类 67 3.5 支持向量机 69 3.5.1 352拉函数 3.5.3软间隔 3.6损失函数对比.. 3 3.7总结和深入阅读 74 第二部分基础模型 77 第4章前馈神经网络 41神经元·…·…… 79 4.11 Sigmoid型函数··············80
目录 VII 2.2.3 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3 机器学习的简单示例——线性回归 . . . . . . . . . . . . . . . . . 32 2.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4 偏差-方差分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.5 机器学习算法的类型 . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 数据的特征表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.6.1 传统的特征学习 . . . . . . . . . . . . . . . . . . . . . . . 43 2.6.2 深度学习方法 . . . . . . . . . . . . . . . . . . . . . . . . 45 2.7 评价指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.8 理论和定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.8.1 PAC学习理论 . . . . . . . . . . . . . . . . . . . . . . . . 48 2.8.2 没有免费午餐定理 . . . . . . . . . . . . . . . . . . . . . . 49 2.8.3 奥卡姆剃刀原理 . . . . . . . . . . . . . . . . . . . . . . . 49 2.8.4 丑小鸭定理 . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.8.5 归纳偏置 . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 第3章 线性模型 53 3.1 线性判别函数和决策边界 . . . . . . . . . . . . . . . . . . . . . . 54 3.1.1 二分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.1.2 多分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2 Logistic回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3 Softmax回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4.2 感知器的收敛性 . . . . . . . . . . . . . . . . . . . . . . . 64 3.4.3 参数平均感知器 . . . . . . . . . . . . . . . . . . . . . . . 65 3.4.4 扩展到多分类 . . . . . . . . . . . . . . . . . . . . . . . . 67 3.5 支持向量机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.5.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.5.2 核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.5.3 软间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.6 损失函数对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 第二部分 基础模型 77 第4章 前馈神经网络 78 4.1 神经元 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.1.1 Sigmoid型函数 . . . . . . . . . . . . . . . . . . . . . . . 80
目录 VⅢ 4.1.2 ReLU函数 83 413 Swish函数 4.1.4 GELU函数 4.15 Maxout单元..」 喝 4.2 双络结物 4.2.1 422 记忆网络 81 4.2.3 图网络 43前馈神经网络,。。。。。。,。。。。。,。,。。。。。。。,。。。。, 4.3.1 通用近似定理 4.3.2 应用到机器学习 4.3.3 参数学习· 9 4.4 反向传播算法 92 45自动梯度计算..。。。。。。。..···。。。。。·。·····。 45.1数值微分 4.5.2 45.3 自动微分... 91 4.6优化问题 100 4.6.1 非凸优化问题 100 4.6.2梯度消失问题 101 4.7 总结和深入阅读 101 第5章卷积神经网络 105 5.1卷积 106 5.1.1 卷积的定义…… 106 5.1.2 513 表积的变种 109 5.1.4 卷积的数学性质 。。。。。。。。。。。。。。。。。。。。。。。 110 5.2卷积神经网络. .111 5.2.1 用卷积来代替全连接 111 5.2.2 5.2.3 汇聚层 114 5.2.4 卷积网络的整体结狗 5.3参数学习 116 5.3.1卷积神经网络的反向传播算法 116 5.4 几种典型的卷积神经网络。。,。。。。,117 5.4.1 LeNet-5 118 5.4.2 AlexNet·· 119 5.4.3 Inception网络,......,·· 121 54.4残差网络···················· 122 55其他卷积方式.·…················· 23 5.51转置卷积..1
目录 VIII 4.1.2 ReLU函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.1.3 Swish函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.1.4 GELU函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.1.5 Maxout单元 . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.2 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.1 前馈网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.2 记忆网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.3 图网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.3 前馈神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.3.1 通用近似定理 . . . . . . . . . . . . . . . . . . . . . . . . 90 4.3.2 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . . 91 4.3.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.4 反向传播算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.5 自动梯度计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.5.1 数值微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.5.2 符号微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.5.3 自动微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.6 优化问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.6.1 非凸优化问题 . . . . . . . . . . . . . . . . . . . . . . . . 100 4.6.2 梯度消失问题 . . . . . . . . . . . . . . . . . . . . . . . . 101 4.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 第5章 卷积神经网络 105 5.1 卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.1.1 卷积的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.1.2 互相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.1.3 卷积的变种 . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.1.4 卷积的数学性质 . . . . . . . . . . . . . . . . . . . . . . . 110 5.2 卷积神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2.1 用卷积来代替全连接 . . . . . . . . . . . . . . . . . . . . 111 5.2.2 卷积层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.2.3 汇聚层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.4 卷积网络的整体结构 . . . . . . . . . . . . . . . . . . . . 115 5.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.3.1 卷积神经网络的反向传播算法 . . . . . . . . . . . . . . . 116 5.4 几种典型的卷积神经网络 . . . . . . . . . . . . . . . . . . . . . . 117 5.4.1 LeNet-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.4.2 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.4.3 Inception网络 . . . . . . . . . . . . . . . . . . . . . . . . 121 5.4.4 残差网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.5 其他卷积方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.5.1 转置卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
目录 5.5.2空洞卷积 。。。。。。。。,。,。。。。。。。。。。。 125 5.6总结和深入阅读............。.............126 第6章循环神经网络 129 6.1给网络增加记忆能力 130 6.1.1 廷时神经网络 6.12 有外部输入的非线性自回归模型 130 6.13 循环神经网络 ·.131 6.2简单循环网络..· 。。。 ..131 6.2.1 循环神经网络的计算能力 132 6.3应用到机器学习· 6.3.1序列到类别模式 134 6.3.2 同步的序列到序列模式 135 6.3.3 异步的序列到序列模式 。。。。。。。。。。。。。。 ··.135 6.4参数学习 136 6.4.1 随时间反向传播算法 6.42实时循环学习算法 138 6.5 长程依赖问题 139 6.5.1改进方案 140 6.6基于门控的循环神经网络 141 6.6.1 长短期记忆网络 141 6.6.2 LSTM网络的各种变体 143 6.6.3 门控循环单元网络 144 6.7深层循环神经网络......·····...145 6.7.1 堆叠痛环神经网络 146 6.7.2 双向循环神经网络 146 6.8扩展到图结构. 147 6.8.1递归神经网络 147 6.8.2 6.9总结和深入阅读·· 149 第7章网络优化与正则化 153 7.1 网络优化 7.1.1网络结构多样性 .154 7.1.2 高维变量的非凸优化 154 713 神经网络优化的改善方法···..··········156 7.2优化算法 156 7.2.1 小批量梯度下降 72.2 批量大小选择 .157 7.2.3 学习率调整 158 7.2.4 梯度估计修正 7.2.5 优化算法小结 166
目录 IX 5.5.2 空洞卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.6 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 第6章 循环神经网络 129 6.1 给网络增加记忆能力 . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.1.1 延时神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 130 6.1.2 有外部输入的非线性自回归模型 . . . . . . . . . . . . . . 130 6.1.3 循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 131 6.2 简单循环网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.2.1 循环神经网络的计算能力 . . . . . . . . . . . . . . . . . . 132 6.3 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.3.1 序列到类别模式 . . . . . . . . . . . . . . . . . . . . . . . 134 6.3.2 同步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 135 6.3.3 异步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 135 6.4 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.4.1 随时间反向传播算法 . . . . . . . . . . . . . . . . . . . . 137 6.4.2 实时循环学习算法 . . . . . . . . . . . . . . . . . . . . . . 138 6.5 长程依赖问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.5.1 改进方案 . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.6 基于门控的循环神经网络 . . . . . . . . . . . . . . . . . . . . . . 141 6.6.1 长短期记忆网络 . . . . . . . . . . . . . . . . . . . . . . . 141 6.6.2 LSTM网络的各种变体 . . . . . . . . . . . . . . . . . . . 143 6.6.3 门控循环单元网络 . . . . . . . . . . . . . . . . . . . . . . 144 6.7 深层循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.7.1 堆叠循环神经网络 . . . . . . . . . . . . . . . . . . . . . . 146 6.7.2 双向循环神经网络 . . . . . . . . . . . . . . . . . . . . . . 146 6.8 扩展到图结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.8.1 递归神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 147 6.8.2 图神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 第7章 网络优化与正则化 153 7.1 网络优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.1.1 网络结构多样性 . . . . . . . . . . . . . . . . . . . . . . . 154 7.1.2 高维变量的非凸优化 . . . . . . . . . . . . . . . . . . . . 154 7.1.3 神经网络优化的改善方法 . . . . . . . . . . . . . . . . . . 156 7.2 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 7.2.1 小批量梯度下降 . . . . . . . . . . . . . . . . . . . . . . . 156 7.2.2 批量大小选择 . . . . . . . . . . . . . . . . . . . . . . . . 157 7.2.3 学习率调整 . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7.2.4 梯度估计修正 . . . . . . . . . . . . . . . . . . . . . . . . 163 7.2.5 优化算法小结 . . . . . . . . . . . . . . . . . . . . . . . . 166