当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习》课程教学资源：《大语言模型》参考书籍PDF电子版 THE CHINESE BOOK FOR LARGE LANGUAGE MODELS（共十三章）

文件格式：PDF，文件大小：10.3MB，售价：47.34元

文档详细内容（约391页）

第一章引言人类主要使用语言进行表达与交流。语言能力通常在人类幼儿时代就已初步形成，并且在人的一生中不断发展与完善[山，2]。为了使计算机能够与人类进行有效交流，科研人员一直致力于研发具有类人语言能力的人工智能(Artificial Intelli- gence,AI)算法，使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人类一样阅读、理解、写作和交流的能力是一个长期的研究挑战3]。从技术路径上来说，语言模型(Language Model,LM)是提升机器语言智能 (Language Intelligence)的主要技术途径之一，全书将聚焦这一主题展开讨论。本章将主要回顾语言模型的发展历程，并且介绍大语言模型与传统语言模型的不同之处及其对于科研发展所带来的机遇与挑战。 1.1语言模型的发展历程一般来说，语言模型旨在对于人类语言的内在规律进行建模，从而准确预测词序列中未来（或缺失）词或词元(Toke)的概率。根据所采用技术方法的不同针对语言模型的研究工作可以分为以下四个主要发展阶段： ·统计语言模型(Statistical Language Model,,SLM).在20世纪90年代兴起的统计语言模型[4,5]是基于统计学习方法研发的。具体来说，统计语言模型使用马尔可夫假设(Markov Assumption)来建立语言序列的预测模型，通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率，即根据一个固定长度的前缀来预测目标单词。具有固定上下文长度n的统计语言模型通常被称为n元 (n-gram)语言模型，如二元或三元语言模型。统计语言模型被广泛应用于信息检索 (Information Retrieval,,R)和自然语言处理(Natural Language Processing,NLP)等领域的早期研究工作。对于高阶统计语言模型来说，随着阶数的增加，需要估计的转移概率项数将会指数级增长，经常会受到“维数灾难”(Curse of Dimensionality) 的困扰。为了缓解数据稀疏问题，需要设计专门的语言模型平滑策略，如回退估计(Back-off Estimation)和古德-图灵估计(Good-Turing Estimation)。然而平滑方法对于高阶上下文的刻画能力仍然较弱，无法精确建模复杂的高阶语义关系。 ·神经语言模型(Neural Language Model,,NLM).神经语言模型[6，刀使用神经网络来建模文本序列的生成，如循环神经网络(Recurrent Neural Networks,RNN).图

第一章引言人类主要使用语言进行表达与交流。语言能力通常在人类幼儿时代就已初步形成，并且在人的一生中不断发展与完善 [1, 2]。为了使计算机能够与人类进行有效交流，科研人员一直致力于研发具有类人语言能力的人工智能（Artificial Intelligence, AI）算法，使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人类一样阅读、理解、写作和交流的能力是一个长期的研究挑战 [3]。从技术路径上来说，语言模型（Language Model, LM）是提升机器语言智能（Language Intelligence）的主要技术途径之一，全书将聚焦这一主题展开讨论。本章将主要回顾语言模型的发展历程，并且介绍大语言模型与传统语言模型的不同之处及其对于科研发展所带来的机遇与挑战。 1.1 语言模型的发展历程一般来说，语言模型旨在对于人类语言的内在规律进行建模，从而准确预测词序列中未来（或缺失）词或词元（Token）的概率。根据所采用技术方法的不同，针对语言模型的研究工作可以分为以下四个主要发展阶段： • 统计语言模型（Statistical Language Model, SLM）. 在 20 世纪 90 年代兴起的统计语言模型 [4, 5] 是基于统计学习方法研发的。具体来说，统计语言模型使用马尔可夫假设（Markov Assumption）来建立语言序列的预测模型，通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率，即根据一个固定长度的前缀来预测目标单词。具有固定上下文长度 𝑛 的统计语言模型通常被称为 𝑛 元（𝑛-gram）语言模型，如二元或三元语言模型。统计语言模型被广泛应用于信息检索（Information Retrieval, IR）和自然语言处理（Natural Language Processing, NLP）等领域的早期研究工作。对于高阶统计语言模型来说，随着阶数 𝑛 的增加，需要估计的转移概率项数将会指数级增长，经常会受到“维数灾难”（Curse of Dimensionality）的困扰。为了缓解数据稀疏问题，需要设计专门的语言模型平滑策略，如回退估计（Back-off Estimation）和古德-图灵估计（Good-Turing Estimation）。然而平滑方法对于高阶上下文的刻画能力仍然较弱，无法精确建模复杂的高阶语义关系。 • 神经语言模型（Neural Language Model, NLM）. 神经语言模型 [6, 7] 使用神经网络来建模文本序列的生成，如循环神经网络（Recurrent Neural Networks, RNN）。图

1.1语言模型的发展历程灵奖获得者Yoshua Bengio在一项早期工作中[6)]引入了分布式词表示(Distributed Word Representation)这一概念，并构建了基于聚合上下文特征（即分布式词向量）的日标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义，这与基于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同，能够刻画更为丰富的隐含语义特征。同时，稠密向量的非零表征对于复杂语言模型的搭建非常友好，能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”(Word Embedding)。这种基于隐含语义特征表示的语言建模方法为自然语言处理任务提供了一种较为通用的解决途径。在这一系列工作中，word2vec[8 9列是一个具有代表性的词嵌入学习模型，它构建了一个简化的浅层神经网络来学习分布式词表示，所学习到的词嵌入可以用作后续任务的语义特征提取器，在自然语言处理任务中得到了广泛使用，取得了显著的性能提升。这些创新性的研究工作将语言模型用于文本表示学习（超越了原始的词序列建模目标），在自然语言处理领域产生了重要影响。 1000 60 GP 40e0 T5 GPT-3 208 2019200 20222023 2023 (a)查询=“Language model" (b)查询=“Large language model” 东中色资怎季石月的受段是来源：10) ·预训练语言模型(Prc--trained Language Model,.PLM).与早期的词嵌入模型相比，预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo[11】是一个早期的代表性预训练语言模型，提出使用大量的无标注数据训练双向LSTM (Bidirectional LSTM,biLSTM)网络，预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示，这与word2vec学习固定的词表示有着显著不同。进步，ELMo可以根据下游任务数据对biLSTM网络进行微调(Fine-Tuning),从而实现面向特定任务的模型优化。然而，传统序列神经网络的长文本建模能力较弱，并

1.1 语言模型的发展历程灵奖获得者 Yoshua Bengio 在一项早期工作中 [6] 引入了分布式词表示（Distributed Word Representation）这一概念，并构建了基于聚合上下文特征（即分布式词向量）的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义，这与基于词典空间的稀疏词向量表示（One-Hot Representation）有着本质的不同，能够刻画更为丰富的隐含语义特征。同时，稠密向量的非零表征对于复杂语言模型的搭建非常友好，能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”（Word Embedding）。这种基于隐含语义特征表示的语言建模方法为自然语言处理任务提供了一种较为通用的解决途径。在这一系列工作中，word2vec [8, 9] 是一个具有代表性的词嵌入学习模型，它构建了一个简化的浅层神经网络来学习分布式词表示，所学习到的词嵌入可以用作后续任务的语义特征提取器，在自然语言处理任务中得到了广泛使用，取得了显著的性能提升。这些创新性的研究工作将语言模型用于文本表示学习（超越了原始的词序列建模目标），在自然语言处理领域产生了重要影响。 2018 2019 2020 2021 2022 2023 0 2000 4000 6000 8000 10000 GPT-1 BERT GPT-2 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 2020 2021 2022 2023 0 500 1000 1500 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 (a) 查询 =“Language model” 2018 2019 2020 2021 2022 2023 0 2000 4000 6000 8000 10000 GPT-1 BERT GPT-2 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 2020 2021 2022 2023 0 500 1000 1500 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 (b) 查询 =“Large language model” 图 1.1 标题中包含查询短语“Language Model”（从 2018 年 6 月起）和“Large Language Model”（从 2019 年 10 月起）的 arXiv 论文累计数量的变化趋势（图片来源：[10]） • 预训练语言模型（Pre-trained Language Model, PLM）. 与早期的词嵌入模型相比，预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo [11] 是一个早期的代表性预训练语言模型，提出使用大量的无标注数据训练双向 LSTM （Bidirectional LSTM, biLSTM）网络，预训练完成后所得到的 biLSTM 可以用来学习上下文感知的单词表示，这与 word2vec 学习固定的词表示有着显著不同。进一步，ELMo 可以根据下游任务数据对 biLSTM 网络进行微调（Fine-Tuning），从而实现面向特定任务的模型优化。然而，传统序列神经网络的长文本建模能力较弱，并 3

1.1语言模型的发展历程 ELMO、BERT、GFT2 RNN-LM.word2vee 务求解能力大通言模型预训时语言候型神经语言候型统计语言模型 1990s 2013 2018 202 图12基于任务求解能力的四代语言模型的演化过程（图片来源：[10] 且不容易并行训练，这些缺点限制了早期预训练模型（如ELMo)的性能。在2017 年，谷歌提出了基于自注意力机制(Sclf-Attention)的Transformer模型[I2],通过自注意力机制建模长程序列关系。Transformer的一个主要优势就是其模型设计对于硬件非常友好，可以通过GPU或者TPU进行加速训练，这为研发大语言模型提供了可并行优化的神经网络架构。基于Transformer架构，谷歌进一步提出了预训练语言模型BERT[l3],采用了仅有编码器的Transformer架构，并通过在大规模无标注数据上使用专门设计的预训练任务来学习双向语言模型。在同期，OpenAI 也迅速采纳了Transformer架构，将其用于GPT-l[l4的训练。与BERT模型不同的是，GPT-l采用了仅有解码器的Transformer架构，以及基于下一个词元预测的预训练任务进行模型的训练。一般来说，编码器架构被认为更适合去解决自然语言理解任务（如完形填空等），而解码器架构更适合解决自然语言生成任务（如文本摘要等)。以ELMo、BERT、GPT-1为代表的预训练语言模型确立了“预训练-微调”这一任务求解范式。其中，预训练阶段旨在通过大规模无标注文本建立模型的基础能力，而微调阶段则使用有标注数据对于模型进行特定任务的适配，从而更好地解决下游的自然语言处理任务。 ·大语言模型(Large Language Model,.LLM).研究人员发现，通过规模扩展如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升，这种现象通常被称为“扩展法则”(Scaling Law）[l5]。一些研究工作尝试训练更大的预训练语言模型（例如175B参数的GPT-3和540B参数的PLM)来探索扩展语言模型所带来的性能极限。这些大规模的预训练语言模型在解决复杂任务时表现出了与小型预训练语言模型（例如330M参数的BERT和1.5B参数的GPT-2)不同的行为。例如，GPT-3可以通过“上下文学习”(In-Context Learning,ICL)的方式来利用少样本数据解决下游任务，而GPT2则不具备这一能力。这种大模型具有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。为了区 4

1.1 语言模型的发展历程统计语言模型神经语言模型预训练语言模型大语言模型任务求解能力 1990s 2013 2018 2022 RNN-LM、word2vec 有效克服数据稀疏问题无监督学习语义特征表示缺乏知识、可迁移性差 n-gram 统计模型具备一定生成能力辅助解决部分任务数据稀疏影响严重 ELMO、BERT、GPT-1/2 有效捕捉上下文语义任务迁移性有了显著提升仍然需要监督数据微调 GPT-3/4、ChatGPT、Claude 规模扩展带来性能重要提升通用的任务求解途径学习成本高、适配灵活性差图 1.2 基于任务求解能力的四代语言模型的演化过程（图片来源：[10]）且不容易并行训练，这些缺点限制了早期预训练模型（如 ELMo）的性能。在 2017 年，谷歌提出了基于自注意力机制（Self-Attention）的 Transformer 模型 [12]，通过自注意力机制建模长程序列关系。Transformer 的一个主要优势就是其模型设计对于硬件非常友好，可以通过 GPU 或者 TPU 进行加速训练，这为研发大语言模型提供了可并行优化的神经网络架构。基于 Transformer 架构，谷歌进一步提出了预训练语言模型 BERT [13]，采用了仅有编码器的 Transformer 架构，并通过在大规模无标注数据上使用专门设计的预训练任务来学习双向语言模型。在同期，OpenAI 也迅速采纳了 Transformer 架构，将其用于 GPT-1 [14] 的训练。与 BERT 模型不同的是，GPT-1 采用了仅有解码器的 Transformer 架构，以及基于下一个词元预测的预训练任务进行模型的训练。一般来说，编码器架构被认为更适合去解决自然语言理解任务（如完形填空等），而解码器架构更适合解决自然语言生成任务（如文本摘要等）。以 ELMo、BERT、GPT-1 为代表的预训练语言模型确立了“预训练-微调”这一任务求解范式。其中，预训练阶段旨在通过大规模无标注文本建立模型的基础能力，而微调阶段则使用有标注数据对于模型进行特定任务的适配，从而更好地解决下游的自然语言处理任务。 • 大语言模型（Large Language Model, LLM）. 研究人员发现，通过规模扩展（如增加模型参数规模或数据规模）通常会带来下游任务的模型性能提升，这种现象通常被称为“扩展法则”（Scaling Law）[15]。一些研究工作尝试训练更大的预训练语言模型（例如 175B 参数的 GPT-3 和 540B 参数的 PaLM）来探索扩展语言模型所带来的性能极限。这些大规模的预训练语言模型在解决复杂任务时表现出了与小型预训练语言模型（例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2）不同的行为。例如，GPT-3 可以通过“上下文学习”（In-Context Learning, ICL）的方式来利用少样本数据解决下游任务，而 GPT-2 则不具备这一能力。这种大模型具有但小模型不具有的能力通常被称为“涌现能力”（Emergent Abilities）。为了区 4

12大语言模型的能力特点别这一能力上的差异，学术界将这些大型预训练语言模型命名为“大语言模型”1 (Large Language Model,LLM)[l6。作为大语言模型的一个代表性应用，ChatGPT 将GT系列大语言模型适配到对话任务中，展现出令人震撼的人机对话能力，一经上线就取得了社会的广泛关注。ChatGPT发布后，与大语言模型相关的arXiv论文数量迅速增长（如图1.1所示），这一研究方向受到了学术界的高度关注。通过回顾上述发展历程，可以看到语言模型并不是一个新的技术概念，而是历经了长期的发展历程。早期的语言模型主要面向自然语言的建模和生成任务而最新的语言模型（如GPT4)则侧重于复杂任务的求解。从语言建模到任务求解，这是人工智能科学思维的一次重要跃升，是理解语言模型前沿进展的关键所在。图12通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与局限性。首先，早期的统计语言模型主要被用于（或辅助用于）解决一些特定任务，主要以信息检索、文本分类、语音识别等传统任务为主。随后，神经语言模型专注于学习任务无关的语义表征，旨在减少人类特征工程的工作量，可以大范围扩展语言模型可应用的任务。进一步，预训练语言模型加强了语义表征的上下文感知能力，并且可以通过下游任务进行微调，能够有效提升下游任务（主要局限于自然语言处理任务)的性能。随着模型参数、训练数据、计算算力的大规模扩展，最新一代大语言模型的任务求解能力有了显著提升，能够不再依靠下游任务数据的微调进行通用任务的求解。综上所述，在语言模型的演化过程中，可以解决的任务范围得到了极大扩展，所获得的任务性能得到了显著提高，这是人工智能历史上的一次重要进步。 1.2大语言模型的能力特点大语言模型的出现为科研人员再次带来了实现通用人工智能(Artificial Gen eral Intelligence)的曙光。尽管通用人工智能在学术界被广泛讨论与探索，但是之前的机器学习算法的泛化性和通用性非常局限，只有大语言模型初步实现了通过统一形式来解决各种下游任务。本部分内容将简要介绍一下大语言模型的主要能力特点，特别是针对传统模型不具备的性能优势进行讨论。 ·具有较为丰富的世界知识.与传统机器学习模型相比，大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上，最早期的专值得注音的是 ,大语言模型不一定比小型预训练语言模型具有更强的任务效果，而且某些大语言模型中也可能不具有某种涌现能力

1.2 大语言模型的能力特点别这一能力上的差异，学术界将这些大型预训练语言模型命名为“大语言模型”1 （Large Language Model, LLM）[16]。作为大语言模型的一个代表性应用，ChatGPT 将 GPT 系列大语言模型适配到对话任务中，展现出令人震撼的人机对话能力，一经上线就取得了社会的广泛关注。ChatGPT 发布后，与大语言模型相关的 arXiv 论文数量迅速增长（如图 1.1 所示），这一研究方向受到了学术界的高度关注。通过回顾上述发展历程，可以看到语言模型并不是一个新的技术概念，而是历经了长期的发展历程。早期的语言模型主要面向自然语言的建模和生成任务，而最新的语言模型（如 GPT-4）则侧重于复杂任务的求解。从语言建模到任务求解，这是人工智能科学思维的一次重要跃升，是理解语言模型前沿进展的关键所在。图 1.2 通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与局限性。首先，早期的统计语言模型主要被用于（或辅助用于）解决一些特定任务，主要以信息检索、文本分类、语音识别等传统任务为主。随后，神经语言模型专注于学习任务无关的语义表征，旨在减少人类特征工程的工作量，可以大范围扩展语言模型可应用的任务。进一步，预训练语言模型加强了语义表征的上下文感知能力，并且可以通过下游任务进行微调，能够有效提升下游任务（主要局限于自然语言处理任务）的性能。随着模型参数、训练数据、计算算力的大规模扩展，最新一代大语言模型的任务求解能力有了显著提升，能够不再依靠下游任务数据的微调进行通用任务的求解。综上所述，在语言模型的演化过程中，可以解决的任务范围得到了极大扩展，所获得的任务性能得到了显著提高，这是人工智能历史上的一次重要进步。 1.2 大语言模型的能力特点大语言模型的出现为科研人员再次带来了实现通用人工智能（Artificial General Intelligence）的曙光。尽管通用人工智能在学术界被广泛讨论与探索，但是之前的机器学习算法的泛化性和通用性非常局限，只有大语言模型初步实现了通过统一形式来解决各种下游任务。本部分内容将简要介绍一下大语言模型的主要能力特点，特别是针对传统模型不具备的性能优势进行讨论。 • 具有较为丰富的世界知识. 与传统机器学习模型相比，大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上，最早期的专 1值得注意的是，大语言模型不一定比小型预训练语言模型具有更强的任务效果，而且某些大语言模型中也可能不具有某种涌现能力。 5

1.2大语言模型的能力特，点家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统，进而解决特定领域的应用任务。然而，当时所采用的技术路径主要是基于逻辑、规则以及初期的机器学习算法，系统能力还比较局限，无法充分建模以及利用世界知识信息。尽管早期的预训练模型（如BERT、GPT1等）也是基于相似的预训练思路但是模型参数规模与数据规模都相对较小，无法充分学习到海量的世界知识。因此，之前的预训练语言模型需要使用微调为主要手段来解决下游任务。 ·具有较强的通用任务解决能力.大语言模型第二个代表性的能力特点是具有较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进行学习，虽然并没有针对特定的下游任务进行优化，却能够建立远强于传统模型的通用任务求解能力。实际上，基于大规模无标注文本的下一个词元预测任务本质上可以看作一个多任务学习过程[1刀，因为针对不同词元的预测任务可能涉及到情感分类(“这部电影真好看”)、数值计算(“3+4=Z)、知识推理(“中国陆地面积最大的省份是新疆”)等非常多样的训练任务。由于具有通用的任务求解能力，大语言模型深刻地影响了很多研究领域的科研范式。例如，在自然语言处理领域，很多传统任务（如摘要、翻译等）都可以采用基于大语言模型的提示学习方法进行解决，而且能够获得较好的任务效果，早期任务特定的解决方案已经被逐步替代。 ·具有较好的复杂任务推理能力.除了具有通用性外，大语言模型在复杂任务中还展现出了较好的推理能力。例如，大语言模型能够回答知识关系复杂的推理问题[18】，还可以解决涉及复杂数学推理过程的数学题目[19]。在这些任务中，传统方法的性能相对较差，为了提升与其相关的特定能力，往往需要针对性地修改模型架构或者使用特定训练数据进行学习。相比之下，大语言模型在大规模文本数据预训练后，能够展现出比传统模型更强的综合推理能力。尽管有些研究工作认为大语言模型不具备真正的推理能力，而是通过“记忆”数据模式来进行任务求解，但在许多复杂应用场景中（参阅微软针对GPT4的测试报告[20]），大语言模型展现出了令人震撼的推理性能，这种现象很难完全通过数据模式的记忆与组合来进行解释。 ·具有较强的人类指令遵循能力.大语言模型建立了自然语言形式的统一任务解决模式：任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习，大语言模型具备了较好的人类指令遵循能力，能够直接通过自然语言描述下达任务指令（又称为“提示学习”）。在早期的对话系统中，指令遵循 6

1.2 大语言模型的能力特点家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统，进而解决特定领域的应用任务。然而，当时所采用的技术路径主要是基于逻辑、规则以及初期的机器学习算法，系统能力还比较局限，无法充分建模以及利用世界知识信息。尽管早期的预训练模型（如 BERT、GPT-1 等）也是基于相似的预训练思路，但是模型参数规模与数据规模都相对较小，无法充分学习到海量的世界知识。因此，之前的预训练语言模型需要使用微调为主要手段来解决下游任务。 • 具有较强的通用任务解决能力. 大语言模型第二个代表性的能力特点是具有较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进行学习，虽然并没有针对特定的下游任务进行优化，却能够建立远强于传统模型的通用任务求解能力。实际上，基于大规模无标注文本的下一个词元预测任务本质上可以看作一个多任务学习过程 [17]，因为针对不同词元的预测任务可能涉及到情感分类（“... 这部电影真好看”）、数值计算（“3+4=7”）、知识推理（“中国陆地面积最大的省份是新疆”）等非常多样的训练任务。由于具有通用的任务求解能力，大语言模型深刻地影响了很多研究领域的科研范式。例如，在自然语言处理领域，很多传统任务（如摘要、翻译等）都可以采用基于大语言模型的提示学习方法进行解决，而且能够获得较好的任务效果，早期任务特定的解决方案已经被逐步替代。 • 具有较好的复杂任务推理能力. 除了具有通用性外，大语言模型在复杂任务中还展现出了较好的推理能力。例如，大语言模型能够回答知识关系复杂的推理问题 [18]，还可以解决涉及复杂数学推理过程的数学题目 [19]。在这些任务中，传统方法的性能相对较差，为了提升与其相关的特定能力，往往需要针对性地修改模型架构或者使用特定训练数据进行学习。相比之下，大语言模型在大规模文本数据预训练后，能够展现出比传统模型更强的综合推理能力。尽管有些研究工作认为大语言模型不具备真正的推理能力，而是通过“记忆”数据模式来进行任务求解，但在许多复杂应用场景中（参阅微软针对 GPT-4 的测试报告 [20]），大语言模型展现出了令人震撼的推理性能，这种现象很难完全通过数据模式的记忆与组合来进行解释。 • 具有较强的人类指令遵循能力. 大语言模型建立了自然语言形式的统一任务解决模式：任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习，大语言模型具备了较好的人类指令遵循能力，能够直接通过自然语言描述下达任务指令（又称为“提示学习”）。在早期的对话系统中，指令遵循 6

点击进入文档下载页（PDF格式）

共391页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录