当前位置：和泉文库 > 计算机 > 浏览文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第18讲变换器模型 Transformer

文件格式：PDF，文件大小：2.91MB，售价：13.2元

文档详细内容（约60页）

Encoder output sequence Encoder Decoder Input sequence 16

Encoder Encoder Decoder Input sequence output sequence 16

Encoder Transformer's Encoder You can use RNN or CNN. Add Norm Feed hi h2 Forward Nx Add Norm Multi-Head Attention Encoder Positional Encoding ⊕ 个 Input Embedding 2 ↑ Inputs 11

Encoder Encoder 𝒉 𝟒 𝒉 𝟑 𝒉 𝒉 𝟏 𝟐 𝒙 𝟒 𝒙 𝟑 𝒙 𝟐 𝒙 𝟏 Transformer’s Encoder You can use RNN or CNN. 17

h2 h3 h4 Block Block FC FC FC FC Block Self-attention 3 .4 18

𝒉 𝟒 𝒉 𝟑 𝒉 𝒉 𝟏 𝟐 𝒙 𝟒 𝒙 𝟑 𝒙 𝟐 𝒙 𝟏 Block Block Block … … … … FC FC FC FC Self-attention 18

「xi1 xi Xi- m x= 0 norm x Layer Norm norm norm https://arxiv.org/ abs/1607.06450 residual a+b x1 mean m FC standard deviation o Self-attention

Self-attention + norm norm … norm 𝑥1 𝑥2 ⋮ 𝑥𝐾 𝑥1 ′ 𝑥2 ′ ⋮ 𝑥𝐾 ′ mean 𝑚 https://arxiv.org/ abs/1607.06450 Layer Norm 𝑥𝑖 ′ = 𝑥𝑖 − 𝑚 𝜎 standard deviation 𝜎 + 𝒃 𝒂 𝒂 + 𝒃 FC residual 19

BERT I use the same network architecture as transformer encoder. Add Norm Feed h2 h3 Forward Nx Add Norm Multi-Head Attention Encoder Residual Positional Layer Encoding norm Input Embedding 2 3 Inputs 20

Encoder 𝒉 𝟒 𝒉 𝟑 𝒉 𝒉 𝟏 𝟐 𝒙 𝟒 𝒙 𝟑 𝒙 𝟐 𝒙 𝟏 I use the same network architecture as transformer encoder. BERT Residual + Layer norm 20

点击进入文档下载页（PDF格式）

共60页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

广东工业大学：《机器学习》课程教学资源（PPT讲稿）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第17讲注意力机制（自注意力）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第17讲注意力机制（概述）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（目标检测，计算机视觉训练技巧）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（Inception, 批量归一化和残差网络ResNet）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（LeNet, AlexNet, VGG和NiN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（Vision Transformers ,ViTs）
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（各式各样的Attention）
广东工业大学：《机器学习》课程教学资源（课件讲义）第20讲预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding（授课：周郭许）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（自编码器 Deep Auto-encoder）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（VAE Generation）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Diffusion Model）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Stable Diffusion）
北京信息科技大学：计算机学院各专业课程教学大纲汇编
北京信息科技大学：计算中心及图书馆课程教学大纲汇编
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲（2015）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录