目录 X 7.3参数初始化. 7.3.1基于固定方差的参数初始化 168 73.2 基于方差编放的参数初始化。。。。。。。。。。。。 7.3.3 正交切始化。。 .171 7.4 数据预外理 172 7.5 7.5.1 批量归一化. 175 7.5.2 层归一化 177 7.5.3 7.5.4局部响应归一化 8 7.6 超参数优化 761网格搜索 179 7.6.2 随机索 180 7.6.3 7.6.4 动杰清源分配 181 7.6.5 神经架构搜索 7.7网络正则化.. 182 7.7.1 和2正则化 183 7.7.2 权重衰减。。 。。。。。。。。。。。。。。。。。。。。。 184 7.7.3 184 7.7.4 丢弃法 185 7.7.5 187 776:答平滑 187 7.8 总结和深入阅读。。··。··············· 188 第8章注意力机制与外部记忆 192 8.1认知神经学中的注意力 193 8.2 注意力机制... 8.2.1注意力机制的变体 196 8.3 自注意力模型 198 8.4 人脑中的记忆. 8.5记忆增强神经网络 202 8.5.1 端到端记忆网 8.52神经图灵机. ....205 8.6基于神经动力学的联想记忆 8.6.1 Hopheld网路 86.2使用联想记忆增加网络容量.··········· 210 8.7总结和深入阅读 210 第9章无监督学习 213 9.1无监督特征学习 214 9.11 214
目录 X 7.3 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 7.3.1 基于固定方差的参数初始化 . . . . . . . . . . . . . . . . . 168 7.3.2 基于方差缩放的参数初始化 . . . . . . . . . . . . . . . . . 169 7.3.3 正交初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . 171 7.4 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 7.5 逐层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 7.5.1 批量归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . 175 7.5.2 层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 7.5.3 权重归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . 178 7.5.4 局部响应归一化 . . . . . . . . . . . . . . . . . . . . . . . 178 7.6 超参数优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 7.6.1 网格搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 7.6.2 随机搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 7.6.3 贝叶斯优化 . . . . . . . . . . . . . . . . . . . . . . . . . . 180 7.6.4 动态资源分配 . . . . . . . . . . . . . . . . . . . . . . . . 181 7.6.5 神经架构搜索 . . . . . . . . . . . . . . . . . . . . . . . . 182 7.7 网络正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 7.7.1 ℓ1 和ℓ2 正则化 . . . . . . . . . . . . . . . . . . . . . . . . 183 7.7.2 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.7.3 提前停止 . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.7.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 7.7.5 数据增强 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.7.6 标签平滑 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.8 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 第8章 注意力机制与外部记忆 192 8.1 认知神经学中的注意力 . . . . . . . . . . . . . . . . . . . . . . . 193 8.2 注意力机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 8.2.1 注意力机制的变体 . . . . . . . . . . . . . . . . . . . . . . 196 8.3 自注意力模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 8.4 人脑中的记忆 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 8.5 记忆增强神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 202 8.5.1 端到端记忆网络 . . . . . . . . . . . . . . . . . . . . . . . 203 8.5.2 神经图灵机 . . . . . . . . . . . . . . . . . . . . . . . . . . 205 8.6 基于神经动力学的联想记忆 . . . . . . . . . . . . . . . . . . . . . 206 8.6.1 Hopfield网络 . . . . . . . . . . . . . . . . . . . . . . . . 207 8.6.2 使用联想记忆增加网络容量 . . . . . . . . . . . . . . . . . 210 8.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 第9章 无监督学习 213 9.1 无监督特征学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 9.1.1 主成分分析 . . . . . . . . . . . . . . . . . . . . . . . . . . 214
目录 9.1.2 稀疏编码。。。·。。。···…···· 216 9.1.3 自编码器·············…218 914 稀疏自编码器 219 9.1.5 堆叠自编码器 。·。…4·。·。+。。。。。。。。·。。4 220 9.1.6降菜自编码器 .220 9.2概率密度估计 221 9.2.1 参数密度估计 9.22非参数密度估计 223 9.3总结和深入阅读 226 第10章模型独立的学习方式 228 10.1集成学习 228 10.1.1 AdaBo0st算法 ,,,+。。。,。,。,。。。4。,+,。,4 230 10.2自训练和协同训练························233 10.2.1自训练 233 10.22协同训练.····233 103多任务学习··················· 235 10.4迁移学习 238 10.41归纳迁移学习 .239 10.4.2转导迁移学习 240 10.6元学习. .245 10.6.1基于优化器的元学习 246 10.62模型无关的元学习.·.··.·.,·..··.·,·.·..247 10.7总结和深入阅读 248 第三部分进阶模型 252 第11章概率图模型 253 11.1模型表示 254 111.1有向图模型. 111.2常见的有向图模型.. ·.256 11.1.3无向图模型 259 11.14无向图模型的概率分解 1115常见的无句图模型 261 111.6有向图和无向图之间的转换··。······.262 11.2学习.. 112.1不含隐变量的参数估计 263 11.2.2含隐变量的参数估计 11.3推断. .271 1131精确推断... 271
目录 XI 9.1.2 稀疏编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 9.1.3 自编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 9.1.4 稀疏自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 219 9.1.5 堆叠自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 220 9.1.6 降噪自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 220 9.2 概率密度估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 9.2.1 参数密度估计 . . . . . . . . . . . . . . . . . . . . . . . . 221 9.2.2 非参数密度估计 . . . . . . . . . . . . . . . . . . . . . . . 223 9.3 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 第10章 模型独立的学习方式 228 10.1 集成学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 10.1.1 AdaBoost算法 . . . . . . . . . . . . . . . . . . . . . . . . 230 10.2 自训练和协同训练 . . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.2.1 自训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.2.2 协同训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.3 多任务学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 10.4 迁移学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 10.4.1 归纳迁移学习 . . . . . . . . . . . . . . . . . . . . . . . . 239 10.4.2 转导迁移学习 . . . . . . . . . . . . . . . . . . . . . . . . 240 10.5 终身学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 10.6 元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 10.6.1 基于优化器的元学习 . . . . . . . . . . . . . . . . . . . . 246 10.6.2 模型无关的元学习 . . . . . . . . . . . . . . . . . . . . . . 247 10.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 第三部分 进阶模型 252 第11章 概率图模型 253 11.1 模型表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 11.1.1 有向图模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 255 11.1.2 常见的有向图模型 . . . . . . . . . . . . . . . . . . . . . . 256 11.1.3 无向图模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 259 11.1.4 无向图模型的概率分解 . . . . . . . . . . . . . . . . . . . 259 11.1.5 常见的无向图模型 . . . . . . . . . . . . . . . . . . . . . . 261 11.1.6 有向图和无向图之间的转换 . . . . . . . . . . . . . . . . . 262 11.2 学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 11.2.1 不含隐变量的参数估计 . . . . . . . . . . . . . . . . . . . 263 11.2.2 含隐变量的参数估计 . . . . . . . . . . . . . . . . . . . . 265 11.3 推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 11.3.1 精确推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 11.3.2 近似推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
目录 Ⅻ 11.4变分推断 11.5基于采样法的近似推断 277 11.51采样法 。。。。。t。年。。。。。,。。。。。。。。。。年。 1152拒绝采样 279 11.5.3重要性采样 280 115.4马尔可夫链蒙特卡罗方法...............281 11.6总结和深入阅读 284 第12章深度信念网络 288 12.1玻尔兹曼机. 12.1.1生成模型 ···290 12.1.2能量最小化与模拟退火 292 12.13参数学习....... 293 12.2受限玻尔兹曼机 295 122.1生成模型 296 12.2.2参数学习 。 298 12.2.3 受限玻尔兹曼机的类型 299 300 12.31生成模型 301 12.3.2 参数学习 30 12.4总结和深入阅读 ...304 第13章深度生成模型 308 13.1概率生成模型 30g 13.11密度估计 ...309 13.1.2生成样本 310 13.13应用于监督学习................,.....310 13.2变分自编码器 310 13.2.1含隐变量的生成模型 310 13.2.3生成网络 314 13.2.4 1325再参数化.. 。 ...316 13.2.6训练 316 13.3生成对抗网络. 13.3.1显式密度模型和隐式密度模型 318 13.3.2 网络分解 318 ...320 13.3.4一个生成对抗网络的具体实现:DCGAN 321 13.3.5模型分析......。................. 321 13.3.6改进模型. 324 13.4总结和深入阅读 327
目录 XII 11.4 变分推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 11.5 基于采样法的近似推断 . . . . . . . . . . . . . . . . . . . . . . . 277 11.5.1 采样法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 11.5.2 拒绝采样 . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 11.5.3 重要性采样 . . . . . . . . . . . . . . . . . . . . . . . . . . 280 11.5.4 马尔可夫链蒙特卡罗方法 . . . . . . . . . . . . . . . . . . 281 11.6 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 第12章 深度信念网络 288 12.1 玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 12.1.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 12.1.2 能量最小化与模拟退火 . . . . . . . . . . . . . . . . . . . 292 12.1.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 12.2 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 12.2.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 12.2.2 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 12.2.3 受限玻尔兹曼机的类型 . . . . . . . . . . . . . . . . . . . 299 12.3 深度信念网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 12.3.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 12.3.2 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 12.4 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 第13章 深度生成模型 308 13.1 概率生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 13.1.1 密度估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 13.1.2 生成样本 . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 13.1.3 应用于监督学习 . . . . . . . . . . . . . . . . . . . . . . . 310 13.2 变分自编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 13.2.1 含隐变量的生成模型 . . . . . . . . . . . . . . . . . . . . 310 13.2.2 推断网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 13.2.3 生成网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 13.2.4 模型汇总 . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 13.2.5 再参数化 . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 13.2.6 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 13.3 生成对抗网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 13.3.1 显式密度模型和隐式密度模型 . . . . . . . . . . . . . . . 318 13.3.2 网络分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 13.3.3 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 13.3.4 一个生成对抗网络的具体实现:DCGAN . . . . . . . . . . 321 13.3.5 模型分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 13.3.6 改进模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 13.4 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
目录 XⅢ 第14章深度强化学习 329 14.1强化学习问题 ...330 强化学习定文 1411典型制子 330 14.1.2 14.1.3马尔可夫决策过程. .331 14.1.4强化学习的目标函教 333 1415值函数..··· 334 14.1.6深度强化学习 335 14.2基于值函数的学习方法 336 14.2.1动态规划算法 ·336 14.2.2蒙特卡罗方法 339 14.2.3时序差分学习方法.······.··.340 142.4深度0网络 343 14.3基于策略函数的学习方法 14.3.1 REINFORCE算法 ...346 14.3.2带基准线的REINFORCE算法 346 14.4演员-评论员算法.........。..........348 14.5总结和深入阅读 第15章序列生成模型 15.1序列概率模型 15.1.1序列生成 .357 15.2N元统计模型 358 15.3深度序列模型. 。。。。。。。。。。。。。。。。。。。。。,。。。。 360 15.31模型结构 360 15.3.2 363 15.4评价方法 363 15.4.1图惑度 363 15.4.2BLEU算法,·。·。···· 364 15.4.3 ROUGE算法 365 15.5序列生成模型中的学习问题 36 15.5.1展光偏美问题. 15.5.2训练目标不一致问题 367 15.5.3计算效率问题.......................367 15.6序列到序列模型. ..375 15.6.1基于循环神经网络的序列到序列模型 376 15.6.2基于注意力的序列到序列摸型... 377 15.63基于自注意力的序列到席列摸型 378 15.7总结和深入阅读 380
目录 XIII 第14章 深度强化学习 329 14.1 强化学习问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 14.1.1 典型例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 14.1.2 强化学习定义 . . . . . . . . . . . . . . . . . . . . . . . . 330 14.1.3 马尔可夫决策过程 . . . . . . . . . . . . . . . . . . . . . . 331 14.1.4 强化学习的目标函数 . . . . . . . . . . . . . . . . . . . . 333 14.1.5 值函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 14.1.6 深度强化学习 . . . . . . . . . . . . . . . . . . . . . . . . 335 14.2 基于值函数的学习方法 . . . . . . . . . . . . . . . . . . . . . . . 336 14.2.1 动态规划算法 . . . . . . . . . . . . . . . . . . . . . . . . 336 14.2.2 蒙特卡罗方法 . . . . . . . . . . . . . . . . . . . . . . . . 339 14.2.3 时序差分学习方法 . . . . . . . . . . . . . . . . . . . . . . 340 14.2.4 深度Q网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 343 14.3 基于策略函数的学习方法 . . . . . . . . . . . . . . . . . . . . . . 344 14.3.1 REINFORCE算法 . . . . . . . . . . . . . . . . . . . . . . 346 14.3.2 带基准线的REINFORCE算法 . . . . . . . . . . . . . . . 346 14.4 演员-评论员算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 14.5 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 第15章 序列生成模型 355 15.1 序列概率模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 15.1.1 序列生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 15.2 N元统计模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 15.3 深度序列模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 15.3.1 模型结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 15.3.2 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 15.4 评价方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 15.4.1 困惑度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 15.4.2 BLEU算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 364 15.4.3 ROUGE算法 . . . . . . . . . . . . . . . . . . . . . . . . . 365 15.5 序列生成模型中的学习问题 . . . . . . . . . . . . . . . . . . . . . 365 15.5.1 曝光偏差问题 . . . . . . . . . . . . . . . . . . . . . . . . 366 15.5.2 训练目标不一致问题 . . . . . . . . . . . . . . . . . . . . 367 15.5.3 计算效率问题 . . . . . . . . . . . . . . . . . . . . . . . . 367 15.6 序列到序列模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 15.6.1 基于循环神经网络的序列到序列模型 . . . . . . . . . . . 376 15.6.2 基于注意力的序列到序列模型 . . . . . . . . . . . . . . . 377 15.6.3 基于自注意力的序列到序列模型 . . . . . . . . . . . . . . 378 15.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
目录 2021年5月18日 XIV 附录数学基础 383 附录A线性代数 附录B微积分 附录C数学优化 403 附录D概率论 附录E信息论 码 https://nndl.github.io
目 录 2021 年 5 月 18 日 XIV 附录 数学基础 383 附录 A 线性代数 384 附录 B 微积分 394 附录 C 数学优化 403 附录 D 概率论 411 附录 E 信息论 424 https://nndl.github.io/