当前位置：和泉文库 > 计算机 > 浏览文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）

文件格式：PDF，文件大小：2.51MB，售价：10.58元

文档详细内容（约47页）

具有隐含状态机制的RNN ·输入向量序列X1…,X7 ·隐含状态向量序列。h1,,h7 ·ht=f(ht-1xt) ·输出向量 ·序列01,0r；0t=g(ht) ·读取序列以生成隐含状态，然后开始生成输出 ·输出向量通常用作下一个隐含状态的输入 D2L.ai

具有隐含状态机制的RNN • 输入向量序列 �$, … , �+ • 隐含状态向量序列 • �$, … , �+ • �! = �(�!#$, �!) • 输出向量 • 序列 �$, … , �+； �! = �(�!) • 读取序列以生成隐含状态，然后开始生成输出 • 输出向量通常用作下一个隐含状态的输入

输出编码输出向量0 解码矩阵W' p(ylo)x exp(vyo)=exp(o[y]) 单热解码 D2L.ai

输出编码解码矩阵 W, 输出向量 � �(�|�) ∝ exp �- .� = exp(�[�]) 单热解码

梯度 ·反向传播的长链依赖关系 ·需要在内存中保留很多中间值 ·蝴蝶效应 ·梯度消失或发散（稍后会详细介绍） ·裁剪梯度以防止发散 gmin(,g ·重新缩放到最大尺寸为0的梯度 D2L.ai

梯度 • 反向传播的长链依赖关系 • 需要在内存中保留很多中间值 • 蝴蝶效应 • 梯度消失或发散（稍后会详细介绍） • 裁剪梯度以防止发散 • 重新缩放到最大尺寸为 � 的梯度 � ← min 1, � ∥ � ∥ �

困惑度 ·通常使用对数似然来测量准确度 ·这使得不同长度的输出无法比较 (例如，一个坏模型的较短输出的效果可能比一个优秀模型的较长输出的性能具有更好的对数似然) ·将对数似然标准化为序列长度 T Σlogp(y:Imodel) VS. π：=- t=1 lo(y:model) ·困惑度是指数版本exp(π) (平均有效选择的数量) D2L.ai

困惑度 • 通常使用对数似然来测量准确度 • 这使得不同长度的输出无法比较（例如，一个坏模型的较短输出的效果可能比一个优秀模型的较长输出的性能具有更好的对数似然） • 将对数似然标准化为序列长度 • 困惑度是指数版本 exp(�) （平均有效选择的数量） − ∑ !/$ + log�(�!|model) vs. �: = − 1 � ∑ !/$ + log�(�!|model)

代码.… D2L.ai

代码 …

点击进入文档下载页（PDF格式）

共47页，可试读17页，点击继续阅读 ↓↓

您可能感兴趣的文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（目标检测，计算机视觉训练技巧）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（Inception, 批量归一化和残差网络ResNet）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（LeNet, AlexNet, VGG和NiN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（卷积和池化层）
广东工业大学：《机器学习》课程教学资源（课件讲义）第11讲感知机模型与多层感知机（前馈神经网络，DNN BP）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（激活函数 dropout）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（梯度消失和梯度爆炸BN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（自适应学习率 AdaGrad RMSProp）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（batch和动量Momentum NAG）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（梯度下降、学习率adagrad adam、随机梯度下降、特征缩放）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）
广东工业大学：《机器学习》课程教学资源（课件讲义）第8讲集成学习（决策树的演化）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第17讲注意力机制（概述）
广东工业大学：《机器学习》课程教学资源（课件讲义）第17讲注意力机制（自注意力）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（Vision Transformers ,ViTs）
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（各式各样的Attention）
广东工业大学：《机器学习》课程教学资源（课件讲义）第20讲预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding（授课：周郭许）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录