当前位置：和泉文库 > 计算机 > 浏览文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（自适应学习率 AdaGrad RMSProp）

文件格式：PDF，文件大小：821.85KB，售价：4.49元

文档详细内容（约19页）

Error surface is rugged .. Tips for training:Adaptive Learning Rate

Error surface is rugged … Tips for training: Adaptive Learning Rate 1

https://docs.google.com/presentation/d/1siUFXARYRpNiMeSRwgFbt7mZVjkMPhR5od09w0Z8xa U/edit#slide=id.g3532c09be1_0_382 Training stuck Small Gradient People believe training stuck because the parameters are around a critical point .. 0.20 .15 loss 1.10 3.05 0.00 100 200 300400500600 700 iteration 1.5 norm of 1.0 gradient 0.5 0.0 100 200 30 400 500

Training stuck ≠ Small Gradient • People believe training stuck because the parameters are around a critical point … loss norm of gradient https://docs.google.com/presentation/d/1siUFXARYRpNiMeSRwgFbt7mZVjkMPhR5od09w0Z8xa U/edit#slide=id.g3532c09be1_0_382 2

Wait a minute... 0.10 0.08 0.06 造o04 0.02 0.00 ·86。 0.0 0.1 0.2 0.3 0.4 0.5 minimum ratio

Wait a minute … 3

Training can be difficult even without critical points. This error surface is convex. Learning rate cannot be -200 -180 -160 -140 -120 -100 one-size-fits-all 6 X 100,000 0 updates 200 -180 -160 -140 -120 -100 -200 -180 -160 -140 -120 -100 b b 7=102 7=107 4

100,000 updates 𝜂 = 10-2 Learning rate cannot be one-size-fits-all Training can be difficult even without critical points. 𝜂 = 10-7 4 This error surface is convex

Different parameters needs different learning rate Formulation for one parameter: 650018.000 15.000 x3500 Smaller 10.500 12.000 0+1←01-⑦g1 7.500 Learning Rate aL 1500 g1=∂01 0=09 W2 0 3.000 Larger 时t1←时 13.500 00a 10.500 Learning Rate 18.000 22.50400m 16.500 19.500 21.000 5000 Parameter dependent

Different parameters needs different learning rate 𝑤1 𝑤2 Larger Learning Rate Smaller Learning Rate 𝜽𝑖 𝒕+𝟏 ← 𝜽𝑖 𝒕 − 𝜂𝒈𝑖 𝒕 𝜽𝑖 𝒕+𝟏 ← 𝜽𝑖 𝒕 − 𝜂 𝜎𝑖 𝑡 𝒈𝑖 𝒕 Parameter dependent 𝒈𝑖 𝒕 = 𝜕𝐿 𝜕𝜽𝑖 |𝜽=𝜽 𝒕 Formulation for one parameter: 5

点击进入文档下载页（PDF格式）

共19页，可试读7页，点击继续阅读 ↓↓

您可能感兴趣的文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（batch和动量Momentum NAG）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（梯度下降、学习率adagrad adam、随机梯度下降、特征缩放）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）
广东工业大学：《机器学习》课程教学资源（课件讲义）第8讲集成学习（决策树的演化）
广东工业大学：《机器学习》课程教学资源（课件讲义）第7讲集成学习（决策树）
广东工业大学：《机器学习》课程教学资源（课件讲义）第6讲线性回归模型及其求解方法 Linear Regression Model and Its Solution
广东工业大学：《机器学习》课程教学资源（课件讲义）第5讲分类问题（4.4 朴素?叶斯分类器）
广东工业大学：《机器学习》课程教学资源（课件讲义）第5讲分类问题（4.3 ?持向量机 SVM）
广东工业大学：《机器学习》课程教学资源（课件讲义）第4讲分类问题（4.1 分类与回归问题概述 4.2 分类性能度量?法）
广东工业大学：《机器学习》课程教学资源（课件讲义）第3讲特征工程 Feature Engineering
广东工业大学：《机器学习》课程教学资源（课件讲义）第2讲模型评估与选择
广东工业大学：《机器学习》课程教学资源（课件讲义）第1讲机器学习概述
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（梯度消失和梯度爆炸BN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（激活函数 dropout）
广东工业大学：《机器学习》课程教学资源（课件讲义）第11讲感知机模型与多层感知机（前馈神经网络，DNN BP）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（卷积和池化层）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（LeNet, AlexNet, VGG和NiN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（Inception, 批量归一化和残差网络ResNet）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（目标检测，计算机视觉训练技巧）
广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录