第一章引言 人类主要使用语言进行表达与交流。语言能力通常在人类幼儿时代就已初步 形成,并且在人的一生中不断发展与完善[山,2]。为了使计算机能够与人类进行有 效交流,科研人员一直致力于研发具有类人语言能力的人工智能(Artificial Intelli- gence,AI)算法,使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人 类一样阅读、理解、写作和交流的能力是一个长期的研究挑战3]。 从技术路径上来说,语言模型(Language Model,LM)是提升机器语言智能 (Language Intelligence)的主要技术途径之一,全书将聚焦这一主题展开讨论。本 章将主要回顾语言模型的发展历程,并且介绍大语言模型与传统语言模型的不同 之处及其对于科研发展所带来的机遇与挑战。 1.1语言模型的发展历程 一般来说,语言模型旨在对于人类语言的内在规律进行建模,从而准确预测 词序列中未来(或缺失)词或词元(Toke)的概率。根据所采用技术方法的不同 针对语言模型的研究工作可以分为以下四个主要发展阶段: ·统计语言模型(Statistical Language Model,,SLM).在20世纪90年代兴起的 统计语言模型[4,5]是基于统计学习方法研发的。具体来说,统计语言模型使用马 尔可夫假设(Markov Assumption)来建立语言序列的预测模型,通常是根据词序 列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度 的前缀来预测目标单词。具有固定上下文长度n的统计语言模型通常被称为n元 (n-gram)语言模型,如二元或三元语言模型。统计语言模型被广泛应用于信息检索 (Information Retrieval,,R)和自然语言处理(Natural Language Processing,NLP)等领 域的早期研究工作。对于高阶统计语言模型来说,随着阶数的增加,需要估计的 转移概率项数将会指数级增长,经常会受到“维数灾难”(Curse of Dimensionality) 的困扰。为了缓解数据稀疏问题,需要设计专门的语言模型平滑策略,如回退估 计(Back-off Estimation)和古德-图灵估计(Good-Turing Estimation)。然而平滑方 法对于高阶上下文的刻画能力仍然较弱,无法精确建模复杂的高阶语义关系。 ·神经语言模型(Neural Language Model,,NLM).神经语言模型[6,刀使用神经 网络来建模文本序列的生成,如循环神经网络(Recurrent Neural Networks,RNN).图
第一章 引言 人类主要使用语言进行表达与交流。语言能力通常在人类幼儿时代就已初步 形成,并且在人的一生中不断发展与完善 [1, 2]。为了使计算机能够与人类进行有 效交流,科研人员一直致力于研发具有类人语言能力的人工智能(Artificial Intelligence, AI)算法,使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人 类一样阅读、理解、写作和交流的能力是一个长期的研究挑战 [3]。 从技术路径上来说,语言模型(Language Model, LM)是提升机器语言智能 (Language Intelligence)的主要技术途径之一,全书将聚焦这一主题展开讨论。本 章将主要回顾语言模型的发展历程,并且介绍大语言模型与传统语言模型的不同 之处及其对于科研发展所带来的机遇与挑战。 1.1 语言模型的发展历程 一般来说,语言模型旨在对于人类语言的内在规律进行建模,从而准确预测 词序列中未来(或缺失)词或词元(Token)的概率。根据所采用技术方法的不同, 针对语言模型的研究工作可以分为以下四个主要发展阶段: • 统计语言模型(Statistical Language Model, SLM). 在 20 世纪 90 年代兴起的 统计语言模型 [4, 5] 是基于统计学习方法研发的。具体来说,统计语言模型使用马 尔可夫假设(Markov Assumption)来建立语言序列的预测模型,通常是根据词序 列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度 的前缀来预测目标单词。具有固定上下文长度 𝑛 的统计语言模型通常被称为 𝑛 元 (𝑛-gram)语言模型,如二元或三元语言模型。统计语言模型被广泛应用于信息检索 (Information Retrieval, IR)和自然语言处理(Natural Language Processing, NLP)等领 域的早期研究工作。对于高阶统计语言模型来说,随着阶数 𝑛 的增加,需要估计的 转移概率项数将会指数级增长,经常会受到“维数灾难”(Curse of Dimensionality) 的困扰。为了缓解数据稀疏问题,需要设计专门的语言模型平滑策略,如回退估 计(Back-off Estimation)和古德-图灵估计(Good-Turing Estimation)。然而平滑方 法对于高阶上下文的刻画能力仍然较弱,无法精确建模复杂的高阶语义关系。 • 神经语言模型(Neural Language Model, NLM). 神经语言模型 [6, 7] 使用神经 网络来建模文本序列的生成,如循环神经网络(Recurrent Neural Networks, RNN)。图
1.1语言模型的发展历程 灵奖获得者Yoshua Bengio在一项早期工作中[6)]引入了分布式词表示(Distributed Word Representation)这一概念,并构建了基于聚合上下文特征(即分布式词向量) 的日标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义,这与基 于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同,能够刻 画更为丰富的隐含语义特征。同时,稠密向量的非零表征对于复杂语言模型的搭 建非常友好,能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”(Word Embedding)。这种基于隐含语义特征表示的语言建模方法为自然 语言处理任务提供了一种较为通用的解决途径。在这一系列工作中,word2vec[8 9列是一个具有代表性的词嵌入学习模型,它构建了一个简化的浅层神经网络来学 习分布式词表示,所学习到的词嵌入可以用作后续任务的语义特征提取器,在自 然语言处理任务中得到了广泛使用,取得了显著的性能提升。这些创新性的研究 工作将语言模型用于文本表示学习(超越了原始的词序列建模目标),在自然语言 处理领域产生了重要影响。 1000 60 GP 40e0 T5 GPT-3 208 2019200 20222023 2023 (a)查询=“Language model" (b)查询=“Large language model” 东中色资怎季石月的受段是 来源:10) ·预训练语言模型(Prc--trained Language Model,.PLM).与早期的词嵌入模型相 比,预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo[11】 是一个早期的代表性预训练语言模型,提出使用大量的无标注数据训练双向LSTM (Bidirectional LSTM,biLSTM)网络,预训练完成后所得到的biLSTM可以用来学 习上下文感知的单词表示,这与word2vec学习固定的词表示有着显著不同。进 步,ELMo可以根据下游任务数据对biLSTM网络进行微调(Fine-Tuning),从而实 现面向特定任务的模型优化。然而,传统序列神经网络的长文本建模能力较弱,并
1.1 语言模型的发展历程 灵奖获得者 Yoshua Bengio 在一项早期工作中 [6] 引入了分布式词表示(Distributed Word Representation)这一概念,并构建了基于聚合上下文特征(即分布式词向量) 的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义,这与基 于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同,能够刻 画更为丰富的隐含语义特征。同时,稠密向量的非零表征对于复杂语言模型的搭 建非常友好,能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”(Word Embedding)。这种基于隐含语义特征表示的语言建模方法为自然 语言处理任务提供了一种较为通用的解决途径。在这一系列工作中,word2vec [8, 9] 是一个具有代表性的词嵌入学习模型,它构建了一个简化的浅层神经网络来学 习分布式词表示,所学习到的词嵌入可以用作后续任务的语义特征提取器,在自 然语言处理任务中得到了广泛使用,取得了显著的性能提升。这些创新性的研究 工作将语言模型用于文本表示学习(超越了原始的词序列建模目标),在自然语言 处理领域产生了重要影响。 2018 2019 2020 2021 2022 2023 0 2000 4000 6000 8000 10000 GPT-1 BERT GPT-2 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 2020 2021 2022 2023 0 500 1000 1500 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 (a) 查询 =“Language model” 2018 2019 2020 2021 2022 2023 0 2000 4000 6000 8000 10000 GPT-1 BERT GPT-2 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 2020 2021 2022 2023 0 500 1000 1500 T5 GPT-3 Codex InstructGPT ChatGPT LLaMA GPT-4 (b) 查询 =“Large language model” 图 1.1 标题中包含查询短语“Language Model”(从 2018 年 6 月起)和“Large Language Model”(从 2019 年 10 月起)的 arXiv 论文累计数量的变化趋势(图片 来源:[10]) • 预训练语言模型(Pre-trained Language Model, PLM). 与早期的词嵌入模型相 比,预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo [11] 是一个早期的代表性预训练语言模型,提出使用大量的无标注数据训练双向 LSTM (Bidirectional LSTM, biLSTM)网络,预训练完成后所得到的 biLSTM 可以用来学 习上下文感知的单词表示,这与 word2vec 学习固定的词表示有着显著不同。进一 步,ELMo 可以根据下游任务数据对 biLSTM 网络进行微调(Fine-Tuning),从而实 现面向特定任务的模型优化。然而,传统序列神经网络的长文本建模能力较弱,并 3
1.1语言模型的发展历程 ELMO、BERT、GFT2 RNN-LM.word2vee 务求解能力 大通言模型 预训时语言候型 神经语言候型 统计语言模型 1990s 2013 2018 202 图12基于任务求解能力的四代语言模型的演化过程(图片来源:[10] 且不容易并行训练,这些缺点限制了早期预训练模型(如ELMo)的性能。在2017 年,谷歌提出了基于自注意力机制(Sclf-Attention)的Transformer模型[I2],通过 自注意力机制建模长程序列关系。Transformer的一个主要优势就是其模型设计对 于硬件非常友好,可以通过GPU或者TPU进行加速训练,这为研发大语言模型提 供了可并行优化的神经网络架构。基于Transformer架构,谷歌进一步提出了预训 练语言模型BERT[l3],采用了仅有编码器的Transformer架构,并通过在大规模 无标注数据上使用专门设计的预训练任务来学习双向语言模型。在同期,OpenAI 也迅速采纳了Transformer架构,将其用于GPT-l[l4的训练。与BERT模型不同 的是,GPT-l采用了仅有解码器的Transformer架构,以及基于下一个词元预测的 预训练任务进行模型的训练。一般来说,编码器架构被认为更适合去解决自然语 言理解任务(如完形填空等),而解码器架构更适合解决自然语言生成任务(如文 本摘要等)。以ELMo、BERT、GPT-1为代表的预训练语言模型确立了“预训练-微 调”这一任务求解范式。其中,预训练阶段旨在通过大规模无标注文本建立模型 的基础能力,而微调阶段则使用有标注数据对于模型进行特定任务的适配,从而 更好地解决下游的自然语言处理任务。 ·大语言模型(Large Language Model,.LLM).研究人员发现,通过规模扩展 如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升,这种现 象通常被称为“扩展法则”(Scaling Law)[l5]。一些研究工作尝试训练更大的预 训练语言模型(例如175B参数的GPT-3和540B参数的PLM)来探索扩展语言 模型所带来的性能极限。这些大规模的预训练语言模型在解决复杂任务时表现出 了与小型预训练语言模型(例如330M参数的BERT和1.5B参数的GPT-2)不同 的行为。例如,GPT-3可以通过“上下文学习”(In-Context Learning,ICL)的方 式来利用少样本数据解决下游任务,而GPT2则不具备这一能力。这种大模型具 有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。为了区 4
1.1 语言模型的发展历程 统计语言模型 神经语言模型 预训练语言模型 大语言模型 任 务 求 解 能 力 1990s 2013 2018 2022 RNN-LM、word2vec 有效克服数据稀疏问题 无监督学习语义特征表示 缺乏知识、可迁移性差 n-gram 统计模型 具备一定生成能力 辅助解决部分任务 数据稀疏影响严重 ELMO、BERT、GPT-1/2 有效捕捉上下文语义 任务迁移性有了显著提升 仍然需要监督数据微调 GPT-3/4、ChatGPT、Claude 规模扩展带来性能重要提升 通用的任务求解途径 学习成本高、适配灵活性差 图 1.2 基于任务求解能力的四代语言模型的演化过程(图片来源:[10]) 且不容易并行训练,这些缺点限制了早期预训练模型(如 ELMo)的性能。在 2017 年,谷歌提出了基于自注意力机制(Self-Attention)的 Transformer 模型 [12],通过 自注意力机制建模长程序列关系。Transformer 的一个主要优势就是其模型设计对 于硬件非常友好,可以通过 GPU 或者 TPU 进行加速训练,这为研发大语言模型提 供了可并行优化的神经网络架构。基于 Transformer 架构,谷歌进一步提出了预训 练语言模型 BERT [13],采用了仅有编码器的 Transformer 架构,并通过在大规模 无标注数据上使用专门设计的预训练任务来学习双向语言模型。在同期,OpenAI 也迅速采纳了 Transformer 架构,将其用于 GPT-1 [14] 的训练。与 BERT 模型不同 的是,GPT-1 采用了仅有解码器的 Transformer 架构,以及基于下一个词元预测的 预训练任务进行模型的训练。一般来说,编码器架构被认为更适合去解决自然语 言理解任务(如完形填空等),而解码器架构更适合解决自然语言生成任务(如文 本摘要等)。以 ELMo、BERT、GPT-1 为代表的预训练语言模型确立了“预训练-微 调”这一任务求解范式。其中,预训练阶段旨在通过大规模无标注文本建立模型 的基础能力,而微调阶段则使用有标注数据对于模型进行特定任务的适配,从而 更好地解决下游的自然语言处理任务。 • 大语言模型(Large Language Model, LLM). 研究人员发现,通过规模扩展 (如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升,这种现 象通常被称为“扩展法则”(Scaling Law)[15]。一些研究工作尝试训练更大的预 训练语言模型(例如 175B 参数的 GPT-3 和 540B 参数的 PaLM)来探索扩展语言 模型所带来的性能极限。这些大规模的预训练语言模型在解决复杂任务时表现出 了与小型预训练语言模型(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同 的行为。例如,GPT-3 可以通过“上下文学习”(In-Context Learning, ICL)的方 式来利用少样本数据解决下游任务,而 GPT-2 则不具备这一能力。这种大模型具 有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。为了区 4
12大语言模型的能力特点 别这一能力上的差异,学术界将这些大型预训练语言模型命名为“大语言模型”1 (Large Language Model,LLM)[l6。作为大语言模型的一个代表性应用,ChatGPT 将GT系列大语言模型适配到对话任务中,展现出令人震撼的人机对话能力,一 经上线就取得了社会的广泛关注。ChatGPT发布后,与大语言模型相关的arXiv论 文数量迅速增长(如图1.1所示),这一研究方向受到了学术界的高度关注。 通过回顾上述发展历程,可以看到语言模型并不是一个新的技术概念,而是 历经了长期的发展历程。早期的语言模型主要面向自然语言的建模和生成任务 而最新的语言模型(如GPT4)则侧重于复杂任务的求解。从语言建模到任务求 解,这是人工智能科学思维的一次重要跃升,是理解语言模型前沿进展的关键所 在。图12通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与 局限性。首先,早期的统计语言模型主要被用于(或辅助用于)解决一些特定任 务,主要以信息检索、文本分类、语音识别等传统任务为主。随后,神经语言模型 专注于学习任务无关的语义表征,旨在减少人类特征工程的工作量,可以大范围 扩展语言模型可应用的任务。进一步,预训练语言模型加强了语义表征的上下文 感知能力,并且可以通过下游任务进行微调,能够有效提升下游任务(主要局限 于自然语言处理任务)的性能。随着模型参数、训练数据、计算算力的大规模扩 展,最新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务 数据的微调进行通用任务的求解。综上所述,在语言模型的演化过程中,可以解 决的任务范围得到了极大扩展,所获得的任务性能得到了显著提高,这是人工智 能历史上的一次重要进步。 1.2大语言模型的能力特点 大语言模型的出现为科研人员再次带来了实现通用人工智能(Artificial Gen eral Intelligence)的曙光。尽管通用人工智能在学术界被广泛讨论与探索,但是之 前的机器学习算法的泛化性和通用性非常局限,只有大语言模型初步实现了通过 统一形式来解决各种下游任务。本部分内容将简要介绍一下大语言模型的主要能 力特点,特别是针对传统模型不具备的性能优势进行讨论。 ·具有较为丰富的世界知识.与传统机器学习模型相比,大语言模型经过超大 规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上,最早期的专 值得注音的是 ,大语言模型不一定比小型预训练语言模型具有更强的任务效果,而且某些大语言模 型中也可能不具有某种涌现能力
1.2 大语言模型的能力特点 别这一能力上的差异,学术界将这些大型预训练语言模型命名为“大语言模型”1 (Large Language Model, LLM)[16]。作为大语言模型的一个代表性应用,ChatGPT 将 GPT 系列大语言模型适配到对话任务中,展现出令人震撼的人机对话能力,一 经上线就取得了社会的广泛关注。ChatGPT 发布后,与大语言模型相关的 arXiv 论 文数量迅速增长(如图 1.1 所示),这一研究方向受到了学术界的高度关注。 通过回顾上述发展历程,可以看到语言模型并不是一个新的技术概念,而是 历经了长期的发展历程。早期的语言模型主要面向自然语言的建模和生成任务, 而最新的语言模型(如 GPT-4)则侧重于复杂任务的求解。从语言建模到任务求 解,这是人工智能科学思维的一次重要跃升,是理解语言模型前沿进展的关键所 在。图 1.2 通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与 局限性。首先,早期的统计语言模型主要被用于(或辅助用于)解决一些特定任 务,主要以信息检索、文本分类、语音识别等传统任务为主。随后,神经语言模型 专注于学习任务无关的语义表征,旨在减少人类特征工程的工作量,可以大范围 扩展语言模型可应用的任务。进一步,预训练语言模型加强了语义表征的上下文 感知能力,并且可以通过下游任务进行微调,能够有效提升下游任务(主要局限 于自然语言处理任务)的性能。随着模型参数、训练数据、计算算力的大规模扩 展,最新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务 数据的微调进行通用任务的求解。综上所述,在语言模型的演化过程中,可以解 决的任务范围得到了极大扩展,所获得的任务性能得到了显著提高,这是人工智 能历史上的一次重要进步。 1.2 大语言模型的能力特点 大语言模型的出现为科研人员再次带来了实现通用人工智能(Artificial General Intelligence)的曙光。尽管通用人工智能在学术界被广泛讨论与探索,但是之 前的机器学习算法的泛化性和通用性非常局限,只有大语言模型初步实现了通过 统一形式来解决各种下游任务。本部分内容将简要介绍一下大语言模型的主要能 力特点,特别是针对传统模型不具备的性能优势进行讨论。 • 具有较为丰富的世界知识. 与传统机器学习模型相比,大语言模型经过超大 规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上,最早期的专 1值得注意的是,大语言模型不一定比小型预训练语言模型具有更强的任务效果,而且某些大语言模 型中也可能不具有某种涌现能力。 5
1.2大语言模型的能力特,点 家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统,进而解决 特定领域的应用任务。然而,当时所采用的技术路径主要是基于逻辑、规则以及 初期的机器学习算法,系统能力还比较局限,无法充分建模以及利用世界知识信 息。尽管早期的预训练模型(如BERT、GPT1等)也是基于相似的预训练思路 但是模型参数规模与数据规模都相对较小,无法充分学习到海量的世界知识。因 此,之前的预训练语言模型需要使用微调为主要手段来解决下游任务。 ·具有较强的通用任务解决能力.大语言模型第二个代表性的能力特点是具有 较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进 行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型 的通用任务求解能力。实际上,基于大规模无标注文本的下一个词元预测任务本 质上可以看作一个多任务学习过程[1刀,因为针对不同词元的预测任务可能涉及 到情感分类(“这部电影真好看”)、数值计算(“3+4=Z)、知识推理(“中国陆 地面积最大的省份是新疆”)等非常多样的训练任务。由于具有通用的任务求解能 力,大语言模型深刻地影响了很多研究领域的科研范式。例如,在自然语言处理 领域,很多传统任务(如摘要、翻译等)都可以采用基于大语言模型的提示学习 方法进行解决,而且能够获得较好的任务效果,早期任务特定的解决方案已经被 逐步替代。 ·具有较好的复杂任务推理能力.除了具有通用性外,大语言模型在复杂任务 中还展现出了较好的推理能力。例如,大语言模型能够回答知识关系复杂的推理 问题[18】,还可以解决涉及复杂数学推理过程的数学题目[19]。在这些任务中,传 统方法的性能相对较差,为了提升与其相关的特定能力,往往需要针对性地修改 模型架构或者使用特定训练数据进行学习。相比之下,大语言模型在大规模文本 数据预训练后,能够展现出比传统模型更强的综合推理能力。尽管有些研究工作 认为大语言模型不具备真正的推理能力,而是通过“记忆”数据模式来进行任务 求解,但在许多复杂应用场景中(参阅微软针对GPT4的测试报告[20]),大语言 模型展现出了令人震撼的推理性能,这种现象很难完全通过数据模式的记忆与组 合来进行解释。 ·具有较强的人类指令遵循能力.大语言模型建立了自然语言形式的统一任务 解决模式:任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两 个阶段的学习,大语言模型具备了较好的人类指令遵循能力,能够直接通过自然 语言描述下达任务指令(又称为“提示学习”)。在早期的对话系统中,指令遵循 6
1.2 大语言模型的能力特点 家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统,进而解决 特定领域的应用任务。然而,当时所采用的技术路径主要是基于逻辑、规则以及 初期的机器学习算法,系统能力还比较局限,无法充分建模以及利用世界知识信 息。尽管早期的预训练模型(如 BERT、GPT-1 等)也是基于相似的预训练思路, 但是模型参数规模与数据规模都相对较小,无法充分学习到海量的世界知识。因 此,之前的预训练语言模型需要使用微调为主要手段来解决下游任务。 • 具有较强的通用任务解决能力. 大语言模型第二个代表性的能力特点是具有 较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进 行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型 的通用任务求解能力。实际上,基于大规模无标注文本的下一个词元预测任务本 质上可以看作一个多任务学习过程 [17],因为针对不同词元的预测任务可能涉及 到情感分类(“... 这部电影真好看”)、数值计算(“3+4=7”)、知识推理(“中国陆 地面积最大的省份是新疆”)等非常多样的训练任务。由于具有通用的任务求解能 力,大语言模型深刻地影响了很多研究领域的科研范式。例如,在自然语言处理 领域,很多传统任务(如摘要、翻译等)都可以采用基于大语言模型的提示学习 方法进行解决,而且能够获得较好的任务效果,早期任务特定的解决方案已经被 逐步替代。 • 具有较好的复杂任务推理能力. 除了具有通用性外,大语言模型在复杂任务 中还展现出了较好的推理能力。例如,大语言模型能够回答知识关系复杂的推理 问题 [18],还可以解决涉及复杂数学推理过程的数学题目 [19]。在这些任务中,传 统方法的性能相对较差,为了提升与其相关的特定能力,往往需要针对性地修改 模型架构或者使用特定训练数据进行学习。相比之下,大语言模型在大规模文本 数据预训练后,能够展现出比传统模型更强的综合推理能力。尽管有些研究工作 认为大语言模型不具备真正的推理能力,而是通过“记忆”数据模式来进行任务 求解,但在许多复杂应用场景中(参阅微软针对 GPT-4 的测试报告 [20]),大语言 模型展现出了令人震撼的推理性能,这种现象很难完全通过数据模式的记忆与组 合来进行解释。 • 具有较强的人类指令遵循能力. 大语言模型建立了自然语言形式的统一任务 解决模式:任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两 个阶段的学习,大语言模型具备了较好的人类指令遵循能力,能够直接通过自然 语言描述下达任务指令(又称为“提示学习”)。在早期的对话系统中,指令遵循 6