当前位置：和泉文库 > 计算机 > 浏览文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第20讲预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding（授课：周郭许）

文件格式：PDF，文件大小：2.71MB，售价：9.74元

文档详细内容（约43页）

Research context Example:Image Captioning using ONLY transformers person wearing hat [END] y1 Coo Co.1 Co.2.C22 Transformer decoder Transformer encoder y3 Dosovitskiy et al,"An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale",ArXiv 2020 [START]person wearing hat Colab link to an implementation of vision transformers 国产之大当 2024/5/13 11

Research context 2024/5/13 11 Example: Image Captioning using ONLY transformers ... Transformer encoder c0,0 c0,1 c0,2 c2,2 ... y0 [START] person wearing hat y1 y2 y1 y3 y2 y4 y3 person wearing hat [END] Transformer decoder Dosovitskiy et al, “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, ArXiv 2020 Colab link to an implementation of vision transformers

Research context Language model pre-training has been used to improve many NLP tasks .ELMo(Peters et al.,2018) OpenAl GPT (Radford et al.,2018) ULMFit(Howard and Rudder,2018) ·BERT 。Unidirectional JLM-FIT Feature-Based(ELMo) Fine-tuning(OpenAl GPT). 。Bidirectional 。BERT 国产之小连

Research context 2024/5/13 12 • Language model pre-training has been used to improve many NLP tasks • ELMo (Peters et al., 2018) • OpenAI GPT (Radford et al., 2018) • ULMFit (Howard and Rudder, 2018) • BERT ● Unidirectional ○ Feature-Based(ELMo) ○ Fine-tuning(OpenAI GPT). ● Bidirectional ○ BERT

Research context Two existing strategies for applying pre-trained language representations to downstream tasks Feature-based:include pre-trained representations as additional features (e.g., ELMo) Fine-tunning:introduce task-specific parameters and fine-tune the pre-trained parameters (e.g., OpenAl GPT,ULMFit) 国产之大丝

Research context 2024/5/13 13 • Two existing strategies for applying pre-trained language representations to downstream tasks • Feature-based: include pre-trained representations as additional features (e.g., ELMo) • Fine-tunning: introduce task-specific parameters and fine-tune the pre-trained parameters (e.g., OpenAI GPT, ULMFit)

Limitations of current techniques Language models in pre-training are unidirectional,they restrict the power of the pre-trained representations .OpenAl GPT used left-to-right architecture ELMo concatenates forward and backward language models 。Solution BERT:Bidirectional Encoder Representations from Transformers 国产之小丝

Limitations of current techniques 2024/5/13 14 •Language models in pre-training are unidirectional, they restrict the power of the pre-trained representations •OpenAI GPT used left-to-right architecture •ELMo concatenates forward and backward language models • Solution BERT: Bidirectional Encoder Representations from Transformers

Differences in pre-training model architectures: BERT,OpenAl GPT,and ELMo TN TN (Trm) (Trm) (rm… (Trm) LSTM(LSTM+·(LSTM LSTM(LSTM·LSTM m Trm Trm (Trm LSTM)(LSTM)·(LSTM LSTM(LSTM(LSTM Ea…w E… EN BERT OpenAl GPT ELMo 国产之大当 2024/5/13 15

Differences in pre-training model architectures: BERT, OpenAI GPT, and ELMo 2024/5/13 15 E1 E2 EN Trm Trm Trm Trm Trm Trm T1 T2 … TN … … … E1 E2 EN Trm Trm Trm Trm Trm Trm T1 T2 … TN … … … E1 E2 EN LSTM LSTM LSTM LSTM LSTM LSTM T1 T2 … TN … … … LSTM LSTM LSTM LSTM LSTM LSTM … … BERT OpenAI GPT ELMo

点击进入文档下载页（PDF格式）

共43页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（各式各样的Attention）
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（Vision Transformers ,ViTs）
广东工业大学：《机器学习》课程教学资源（课件讲义）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第17讲注意力机制（自注意力）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第17讲注意力机制（概述）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（自编码器 Deep Auto-encoder）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（VAE Generation）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Diffusion Model）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Stable Diffusion）
北京信息科技大学：计算机学院各专业课程教学大纲汇编
北京信息科技大学：计算中心及图书馆课程教学大纲汇编
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《解析几何》课程教学大纲（2015）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录