当前位置：和泉文库 > 计算机 > 浏览文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（梯度消失和梯度爆炸BN）

文件格式：PDF，文件大小：540.24KB，售价：3.33元

文档详细内容（约14页）

Quick Introduction of Batch Normalization Hung-yi Lee李宏毅 1

Quick Introduction of Batch Normalization Hung-yi Lee 李宏毅 1

Changing Landscape W2 Loss L smooth W +△y small W1+△W1 e X1 1,2 +△ small mall b L= W2 +△L 1 X2 small 2

Changing Landscape 1 + 1, 2 …… w1 w2 Loss L 𝑦 ො 𝑦 𝑒 𝑏 𝑤1 𝑤2 𝐿 = ෍𝑒 small 𝑥1 𝑥2 +∆𝑤1 +∆y +∆e +∆𝐿 small smooth small small 2

Changing Landscape Loss L Loss L smooth +△y large W1 y← X1 e 1,2 +△e small same large b L= W2 range △W2 X2 100,200 +△L .s. large large

Changing Landscape 1 + 1, 2 …… 100, 200 …… w1 w2 Loss L w1 w2 Loss L 𝑦 ො 𝑦 𝑒 𝑏 𝑤1 𝑤2 𝐿 = ෍𝑒 small large 𝑥1 𝑥2 +∆𝑤2 +∆y +∆e +∆𝐿 large smooth steep same range large large 3

Feature normalization 3 x For each x dimension i: mean:mi : standard deviation:oi x{-mi The means of all dims are 0, ← Oi and the variances are all 1 In general,feature normalization makes gradient descent converge faster. 4

Feature Normalization ……………… …… …… …… …… 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑 𝒙 𝒓 𝒙 𝑹 mean: 𝑚𝑖 standard deviation: 𝜎𝑖 𝒙෥𝑖 𝒓 ← 𝒙𝑖 𝒓 − 𝑚𝑖 𝜎𝑖 The means of all dims are 0, and the variances are all 1 For each dimension 𝑖: 𝒙1 𝟏 𝒙2 𝟏 𝒙1 𝟐 𝒙2 𝟐 In general, feature normalization makes gradient descent converge faster. 4

Considering Deep Learning Different dims have different ranges. Wi igmoid W2 元2 W1 Sigmoid W2 。。。。e 3 W1 63 Sigmoid W2 Also difficult to optimize Feature Also need Normalization normalization

𝒂 𝟑 𝒂 𝟐 𝑎 𝑊1 1 𝑊1 𝑊1 𝒛 𝟏 𝒛 𝟐 𝒛 𝟑 𝑊2 𝑊2 𝑊2 Sigmoid …… …… …… Sigmoid Sigmoid Feature Normalization 𝒙෥ 𝟏 𝒙෥ 𝟐 𝒙෥ 𝟑 Also need normalization Different dims have different ranges. Also difficult to optimize Considering Deep Learning 5

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（自适应学习率 AdaGrad RMSProp）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（batch和动量Momentum NAG）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（梯度下降、学习率adagrad adam、随机梯度下降、特征缩放）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）
广东工业大学：《机器学习》课程教学资源（课件讲义）第8讲集成学习（决策树的演化）
广东工业大学：《机器学习》课程教学资源（课件讲义）第7讲集成学习（决策树）
广东工业大学：《机器学习》课程教学资源（课件讲义）第6讲线性回归模型及其求解方法 Linear Regression Model and Its Solution
广东工业大学：《机器学习》课程教学资源（课件讲义）第5讲分类问题（4.4 朴素?叶斯分类器）
广东工业大学：《机器学习》课程教学资源（课件讲义）第5讲分类问题（4.3 ?持向量机 SVM）
广东工业大学：《机器学习》课程教学资源（课件讲义）第4讲分类问题（4.1 分类与回归问题概述 4.2 分类性能度量?法）
广东工业大学：《机器学习》课程教学资源（课件讲义）第3讲特征工程 Feature Engineering
广东工业大学：《机器学习》课程教学资源（课件讲义）第2讲模型评估与选择
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（激活函数 dropout）
广东工业大学：《机器学习》课程教学资源（课件讲义）第11讲感知机模型与多层感知机（前馈神经网络，DNN BP）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（卷积和池化层）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（LeNet, AlexNet, VGG和NiN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（Inception, 批量归一化和残差网络ResNet）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（目标检测，计算机视觉训练技巧）
广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录