1.3大语言模型关键技术概览 就是一个受到广泛关注的研究方向。然而,传统模型缺乏通用的任务理解与执行 能力,仍然需要依赖人工规则或者先验信息辅助指令理解模块的设计与训练。由 于具有较强的指令遵循能力,大语言模型为人机交互提供了一种自然的、通用的 技术路径,这对于打造很多以人为中心的应用服务(如智能音箱、信息助手等)具 有重要的意义。 ·具有较好的人类对齐能力.机器学习模型的安全性一直以来是一个重要的研 究课题。然而,传统模型的智能性、通用性相对较弱,很多科研学者对于模型安全 性的关注程度通常远低于对于提升模型性能的关注。随着大语言模型的出现,由 于其具有出色的模型性能,如果不进行有效的对齐与监管,将可能带来非常严重 的后果。目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学 习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐 能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥 用行为,一定程度上规避了常见的使用风险。 ·具有可拓展的工具使用能力.在机器学习领域,模型的设计和实现往往都具 有一定的局限性,例如会受到所采用的归纳假设以及训练数据的限制。同样地,大 语言模型的能力也具有一定的局限性。例如,它仍然无法有效回答涉及到预训练 数据时间范围之外的问题,并且对于数学中的数值计算问题也表现不佳。作为解 决方案,由于大语言模型具有较为通用的任务求解形式,可以通过微调、上下文 学习等方式掌握外部工具的使用,如搜索引擎与计算器。实际上,世界上最会使 用工具的智能体就是人类,人类不断发明新的技术与工具,拓展自己的认知与能 力边界。工具学习实际上就是借鉴了这一思路,通过具有特殊功能的工具来加强 大语言模型的能力。然而,工具的有效使用对于模型的任务理解能力和推理能力 有着较高的要求,因此传统模型以及没有经过特殊微调的大语言模型往往不能很 好地使用丰富的工具库。目前最先进的大语言模型如GPT4等能够支持多种工具 的使用,从而极大地提升了模型的任务解决能力。 除了上述主要的能力特点外,大语言模型还能够展现出很多其他重要能力,如 长程对话的语义一致性、对于新任务的快速适配、对于人类行为的准确模拟等。本 书将在后续的内容中对于这些特点再进行专门介绍
1.3 大语言模型关键技术概览 就是一个受到广泛关注的研究方向。然而,传统模型缺乏通用的任务理解与执行 能力,仍然需要依赖人工规则或者先验信息辅助指令理解模块的设计与训练。由 于具有较强的指令遵循能力,大语言模型为人机交互提供了一种自然的、通用的 技术路径,这对于打造很多以人为中心的应用服务(如智能音箱、信息助手等)具 有重要的意义。 • 具有较好的人类对齐能力. 机器学习模型的安全性一直以来是一个重要的研 究课题。然而,传统模型的智能性、通用性相对较弱,很多科研学者对于模型安全 性的关注程度通常远低于对于提升模型性能的关注。随着大语言模型的出现,由 于其具有出色的模型性能,如果不进行有效的对齐与监管,将可能带来非常严重 的后果。目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学 习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐 能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥 用行为,一定程度上规避了常见的使用风险。 • 具有可拓展的工具使用能力. 在机器学习领域,模型的设计和实现往往都具 有一定的局限性,例如会受到所采用的归纳假设以及训练数据的限制。同样地,大 语言模型的能力也具有一定的局限性。例如,它仍然无法有效回答涉及到预训练 数据时间范围之外的问题,并且对于数学中的数值计算问题也表现不佳。作为解 决方案,由于大语言模型具有较为通用的任务求解形式,可以通过微调、上下文 学习等方式掌握外部工具的使用,如搜索引擎与计算器。实际上,世界上最会使 用工具的智能体就是人类,人类不断发明新的技术与工具,拓展自己的认知与能 力边界。工具学习实际上就是借鉴了这一思路,通过具有特殊功能的工具来加强 大语言模型的能力。然而,工具的有效使用对于模型的任务理解能力和推理能力 有着较高的要求,因此传统模型以及没有经过特殊微调的大语言模型往往不能很 好地使用丰富的工具库。目前最先进的大语言模型如 GPT-4 等能够支持多种工具 的使用,从而极大地提升了模型的任务解决能力。 除了上述主要的能力特点外,大语言模型还能够展现出很多其他重要能力,如 长程对话的语义一致性、对于新任务的快速适配、对于人类行为的准确模拟等。本 书将在后续的内容中对于这些特点再进行专门介绍。 7
13大语言模型关键技术概览 13大语言模型关键技术概览 从早期的统计语言模型到大语言模型,科研人员进行了一系列的技术探索,从 而实现了模型能力的显著提升。下面将概括性地介绍一下大语言模型能够取得重 要进展背后的关键技术。具体的技术细节可以参考本书后续章节的详细介绍。 ·规模扩展.规模扩展是大语言模型的一个关键成功因素。在较早期的研究中, OpenAI从参数、数据、算力三个方面深入地研究了规模扩展对于模型性能所带来 的影响,建立了定量的函数关系,称之为“扩展法则”(Scaling Law)[15,21](论 文在2020年发表),并在GPT-3中探索了千亿级模型参数规模(175B参数)所 带来的性能优势,为后期研发GT系列模型打下了重要的基础。随后,谷歌研究 团队也在2022年推出了具有540B参数的PaLM模型,子公司DeepMind也在同 年发表了重要研究成果一Chinchilla扩展法则[22]。研究人员发现这些超大规模语 言模型能够展现出一些小型语言模型不具备的能力特点,如上下文学习能力、思 维链能力等[23-25],这也成为区分上一代预训练语言模型与大语言模型的重要标 志。早期的研究主要关注模型参数规模所带来的性能优势,最近的工作则是加大 对于高质量数据的规模扩展。针对十亿级别(如2B或7B)参数的模型使用超大 规模的数据(如2T或3T词元)进行训练,仍然可能无法达到这些模型的最大数 据容量。实现规模扩展的关键在于模型架构的可扩展性。Transformer模型的可扩 展性非常强,对于硬件并行优化的支持也比较友好,特别适合大语言模型的研发 很多工作也在进一步针对其进行优化与改进。 ·数据工程.OpenAI于2019年就在GPT-2的论文中[17刀给出了当前大语言模 型的技术路线图:通过在海量文本上进行下一个词预测的优化,使得模型能够学 习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务。这种方 式最大的好处是,极大地简化了模型的设计与优化过程,使得模型训练与使用都 是基于自然语言生成的模式进行的。实际上,人工智能技术的几次重要升级都体 现出了这种“大道至简”的思想。例如,早期的深度学习系统通过端到端的训练方 法来建立输入与输出间的映射关系,而抛弃了传统耦合多个组件的复杂系统。在 这种通用的预训练范式下,模型能力本质上是来源于所见过的训练数据,因此数 据工程就变得极为重要,不是简单的扩大数据规模就能够实现的。目前来说,数 据工程主要包括三个方面。首先,需要对于数据进行全面的采集,拓宽高质量的 数据来源;其次,需要对于收集到的数据进行精细的清洗,尽量提升用于大模型
1.3 大语言模型关键技术概览 1.3 大语言模型关键技术概览 从早期的统计语言模型到大语言模型,科研人员进行了一系列的技术探索,从 而实现了模型能力的显著提升。下面将概括性地介绍一下大语言模型能够取得重 要进展背后的关键技术。具体的技术细节可以参考本书后续章节的详细介绍。 • 规模扩展. 规模扩展是大语言模型的一个关键成功因素。在较早期的研究中, OpenAI 从参数、数据、算力三个方面深入地研究了规模扩展对于模型性能所带来 的影响,建立了定量的函数关系,称之为“扩展法则”(Scaling Law)[15, 21](论 文在 2020 年发表),并在 GPT-3 中探索了千亿级模型参数规模(175B 参数)所 带来的性能优势,为后期研发 GPT 系列模型打下了重要的基础。随后,谷歌研究 团队也在 2022 年推出了具有 540B 参数的 PaLM 模型,子公司 DeepMind 也在同 年发表了重要研究成果—Chinchilla 扩展法则 [22]。研究人员发现这些超大规模语 言模型能够展现出一些小型语言模型不具备的能力特点,如上下文学习能力、思 维链能力等 [23–25],这也成为区分上一代预训练语言模型与大语言模型的重要标 志。早期的研究主要关注模型参数规模所带来的性能优势,最近的工作则是加大 对于高质量数据的规模扩展。针对十亿级别(如 2B 或 7B)参数的模型使用超大 规模的数据(如 2T 或 3T 词元)进行训练,仍然可能无法达到这些模型的最大数 据容量。实现规模扩展的关键在于模型架构的可扩展性。Transformer 模型的可扩 展性非常强,对于硬件并行优化的支持也比较友好,特别适合大语言模型的研发, 很多工作也在进一步针对其进行优化与改进。 • 数据工程. OpenAI 于 2019 年就在 GPT-2 的论文中 [17] 给出了当前大语言模 型的技术路线图:通过在海量文本上进行下一个词预测的优化,使得模型能够学 习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务。这种方 式最大的好处是,极大地简化了模型的设计与优化过程,使得模型训练与使用都 是基于自然语言生成的模式进行的。实际上,人工智能技术的几次重要升级都体 现出了这种“大道至简”的思想。例如,早期的深度学习系统通过端到端的训练方 法来建立输入与输出间的映射关系,而抛弃了传统耦合多个组件的复杂系统。在 这种通用的预训练范式下,模型能力本质上是来源于所见过的训练数据,因此数 据工程就变得极为重要,不是简单的扩大数据规模就能够实现的。目前来说,数 据工程主要包括三个方面。首先,需要对于数据进行全面的采集,拓宽高质量的 数据来源;其次,需要对于收集到的数据进行精细的清洗,尽量提升用于大模型 8
1.3大语言模型关键技术概览 训练的数据质量;第三,需要进行有效的数据配比与数据课程,加强模型对于数 据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型 的性能水平。目前来说,针对英文的开源高质量数据集合比较丰富,相关的数据 工程技术讨论也相对较多,但是对于其他语言的研究关注度还有待进一步加强。 ·高效预训练.与传统预训练语言模型相比,成功训练出一个性能较强的大语 言模型极具挑战性。由于参数规模巨大,需要使用大规模分布式训练算法优化大 语言模型的神经网络参数。在训练过程中,需要联合使用各种并行策略以及效率 优化方法,包括3D并行(数据并行、流水线并行、张量并行)、ZO(内存冗 余消除技术)等。为了有效支持分布式训练,很多研究机构发布了专用的分布式 优化框架来简化并行算法的实现与部署,其中具有代表性的分布式训练软件包括 DeepSpeed[26和Megatron-LM[27刀,它们能够有效支持千卡甚至万卡的联合训 练。在实现上,大语言模型的训练过程需要搭建一个全栈式的优化体系架构,能够 支持大规模预训练数据的调度安排,建立起可迭代的模型性能改进闭环,加强效 果反馈机制,从而能够快速、灵活地进行相关训练策略的调整。由于大语言模型的 训练需要耗费大量的算力资源,通常需要开展基于小模型的沙盒测试实验,进而 确定面向大模型的最终训练策略。为此,GPT-4构建了一整套面向大模型的基础 训练架构,可以使用较少的算力开销来可靠地预测大模型的最终性能。此外,研 发过程也需要关注较为实用的优化技巧,提升训练稳定性和优化效率,如混合精 度训练。 ·能力激发.大语言模型经过超大规模数据的预训练后,能够编码大量的文本 语义知识信息。然而,这个阶段的模型能力仍然是通过通用的下一个词预测任务 建立的,主要目的是为了进行预训练文本数据的恢复。为了提升模型的任务求解 能力,需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面, 可以使用自然语言表达的任务描述以及期望的任务输出对于大语言模型进行指令 微调,从而增强大语言模型的通用任务求解能力,提升模型在未见任务上的泛化 能力。通常来说,现有的研究认为指令微调无法向大模型注入新的知识,而是训练 大模型学会利用自身所掌握的知识与信息进行任务的求解。在提示学习方面,需 要设计合适的提示策略去诱导大语言模型生成正确的问题答案。为此,研究人员 提出了多种高级提示策略,包括上下文学习、思维链提示等,通过构建特殊的提 示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。提示工程已经 成为利用大语言模型能力的一个重要技术途径。进一步,大语言模型还具有较好
1.3 大语言模型关键技术概览 训练的数据质量;第三,需要进行有效的数据配比与数据课程,加强模型对于数 据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型 的性能水平。目前来说,针对英文的开源高质量数据集合比较丰富,相关的数据 工程技术讨论也相对较多,但是对于其他语言的研究关注度还有待进一步加强。 • 高效预训练. 与传统预训练语言模型相比,成功训练出一个性能较强的大语 言模型极具挑战性。由于参数规模巨大,需要使用大规模分布式训练算法优化大 语言模型的神经网络参数。在训练过程中,需要联合使用各种并行策略以及效率 优化方法,包括 3D 并行(数据并行、流水线并行、张量并行)、ZeRO(内存冗 余消除技术)等。为了有效支持分布式训练,很多研究机构发布了专用的分布式 优化框架来简化并行算法的实现与部署,其中具有代表性的分布式训练软件包括 DeepSpeed [26] 和 Megatron-LM [27],它们能够有效支持千卡甚至万卡的联合训 练。在实现上,大语言模型的训练过程需要搭建一个全栈式的优化体系架构,能够 支持大规模预训练数据的调度安排,建立起可迭代的模型性能改进闭环,加强效 果反馈机制,从而能够快速、灵活地进行相关训练策略的调整。由于大语言模型的 训练需要耗费大量的算力资源,通常需要开展基于小模型的沙盒测试实验,进而 确定面向大模型的最终训练策略。为此,GPT-4 构建了一整套面向大模型的基础 训练架构,可以使用较少的算力开销来可靠地预测大模型的最终性能。此外,研 发过程也需要关注较为实用的优化技巧,提升训练稳定性和优化效率,如混合精 度训练。 • 能力激发. 大语言模型经过超大规模数据的预训练后,能够编码大量的文本 语义知识信息。然而,这个阶段的模型能力仍然是通过通用的下一个词预测任务 建立的,主要目的是为了进行预训练文本数据的恢复。为了提升模型的任务求解 能力,需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面, 可以使用自然语言表达的任务描述以及期望的任务输出对于大语言模型进行指令 微调,从而增强大语言模型的通用任务求解能力,提升模型在未见任务上的泛化 能力。通常来说,现有的研究认为指令微调无法向大模型注入新的知识,而是训练 大模型学会利用自身所掌握的知识与信息进行任务的求解。在提示学习方面,需 要设计合适的提示策略去诱导大语言模型生成正确的问题答案。为此,研究人员 提出了多种高级提示策略,包括上下文学习、思维链提示等,通过构建特殊的提 示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。提示工程已经 成为利用大语言模型能力的一个重要技术途径。进一步,大语言模型还具有较好 9
1.3大语言模型关键技术概览 的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步 骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。 ·人类对齐.互联网上开放的无标注文本数据的内容覆盖范围较广,可能包 含低质量、个人隐私、事实错误的数据信息。因此,经过海量无标注文本预训练 的大语言模型可能会生成有偏见、泄露隐私甚至对人类有害的内容。在实践应用 中,需要保证大语言模型能够较好地符合人类的价值观。目前,比较具有代表性 的对齐标准是“3H对齐标准”,即Helpfulness(有用性)、Honesty(诚实性)和 Harmlessness(无害性)。与传统的任务优化目标不同,这三个对齐标准一定程度 上都与人类主观感知相关,很难直接建立形式化的特定优化目标。为了解决这 问题,OpenAI提出了基于人类反馈的强化学习算法(Reinforcement Learning from Human Feedback,RLHF)[28,将人类偏好引入到大模型的对齐过程中:首先训 练能够区分模型输出质量好坏的奖励模型,进而使用强化学习算法来指导语言模 型输出行为的调整,让大语言模型能够生成符合人类预期的输出。由于强化学习 算法的优化过程较为复杂,最近学术界开始涌现出一批使用监督微调的对齐方式, 从而简化RLHF优化过程的算法,如DPO算法等[29]。随着人工智能算法能力的 不断提升,有效监管模型行为以及使用风险变得愈发重要,特别是当模型能力达 到一个较高水平之后(如超级智能或人类水平)。为此,OpenAI还专门发布了“超 级对齐”(Super-alignment)的研究项目,旨在研究如何监管具有强人工智能能力 的算法。 ·工具使用.由于大语言模型的能力主要是通过大规模文本数据的语义学习 所建立的,因此在非自然语言形式的任务(如数值计算)中能力较为受限。此外 语言模型的能力也受限于预训练数据所提供的信息,无法有效推断出超过数据时 间范围以及覆盖内容的语义信息。为了解决上述问题,工具学习成为一种扩展大 语言模型能力的关键技术[30,31],通过让大语言模型学会使用各种工具的调用方 式,进而利用合适的工具去实现特定的功能需求。例如,大语言模型可以利用计 算器进行精确的数值计算,利用搜索引擎检索最新的时效信息。为了能够有效地 使用外部工具,GPT系列模型通过插件机制来形成系统性的工具调用方式,这些 插件可以类比为大语言模型的“眼睛和耳朵”,能够有效扩展大语言模型的能力范 围。在技术路径上,工具调用能力主要是通过指令微调以及提示学习两种途径实 现,而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工 具。本质上来说,工具使用这一思想来源于人类行为的启发,人类能够充分利用 10
1.3 大语言模型关键技术概览 的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步 骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。 • 人类对齐. 互联网上开放的无标注文本数据的内容覆盖范围较广,可能包 含低质量、个人隐私、事实错误的数据信息。因此,经过海量无标注文本预训练 的大语言模型可能会生成有偏见、泄露隐私甚至对人类有害的内容。在实践应用 中,需要保证大语言模型能够较好地符合人类的价值观。目前,比较具有代表性 的对齐标准是“3 H 对齐标准”,即 Helpfulness(有用性)、Honesty(诚实性)和 Harmlessness(无害性)。与传统的任务优化目标不同,这三个对齐标准一定程度 上都与人类主观感知相关,很难直接建立形式化的特定优化目标。为了解决这一 问题,OpenAI 提出了基于人类反馈的强化学习算法(Reinforcement Learning from Human Feedback, RLHF)[28],将人类偏好引入到大模型的对齐过程中:首先训 练能够区分模型输出质量好坏的奖励模型,进而使用强化学习算法来指导语言模 型输出行为的调整,让大语言模型能够生成符合人类预期的输出。由于强化学习 算法的优化过程较为复杂,最近学术界开始涌现出一批使用监督微调的对齐方式, 从而简化 RLHF 优化过程的算法,如 DPO 算法等 [29]。随着人工智能算法能力的 不断提升,有效监管模型行为以及使用风险变得愈发重要,特别是当模型能力达 到一个较高水平之后(如超级智能或人类水平)。为此,OpenAI 还专门发布了“超 级对齐”(Super-alignment)的研究项目,旨在研究如何监管具有强人工智能能力 的算法。 • 工具使用. 由于大语言模型的能力主要是通过大规模文本数据的语义学习 所建立的,因此在非自然语言形式的任务(如数值计算)中能力较为受限。此外, 语言模型的能力也受限于预训练数据所提供的信息,无法有效推断出超过数据时 间范围以及覆盖内容的语义信息。为了解决上述问题,工具学习成为一种扩展大 语言模型能力的关键技术 [30, 31],通过让大语言模型学会使用各种工具的调用方 式,进而利用合适的工具去实现特定的功能需求。例如,大语言模型可以利用计 算器进行精确的数值计算,利用搜索引擎检索最新的时效信息。为了能够有效地 使用外部工具,GPT 系列模型通过插件机制来形成系统性的工具调用方式,这些 插件可以类比为大语言模型的“眼睛和耳朵”,能够有效扩展大语言模型的能力范 围。在技术路径上,工具调用能力主要是通过指令微调以及提示学习两种途径实 现,而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工 具。本质上来说,工具使用这一思想来源于人类行为的启发,人类能够充分利用 10
1.4大语言模型对科技发展的影响 各种外部工具来提升某种特定技能。例如,人类发明了汽车,能够有效缩短通勤 的往返时间。随着应用范围的不断拓展,创建广泛的、可供大模型使用的工具资 源变得愈为重要。 尽管大语言模型技术已经取得了显著进展,但是对于它的基本原理仍然缺乏 深入的探索,很多方面还存在局限性或者提升空间。首先,大模型中某些重要能 力(如上下文学习能力)的诵现仍然缺乏形式化的理论解释,需要针对大语言模 型基础能力的形成原因进行深入研究,从而揭示大语言模型内部的工作机理。其 次,大语言模型预训练需要大规模的计算资源支持,研究各种训练策略的效果并 进行可重复性的消融实验的成本非常高昂。学术界难以获得充分的算力来系统性 研究大语言模型;虽然工业界或者大型研究机构不断推出性能优异的开源大模型, 但是这些模型的训练过程的开源程度还不够充分,许多重要的训练细节仍缺乏公 开的研究报道。特别地,现有的大语言模型非常依赖于工程方法的优化(如数据 清洗等),但是这些技术的理论支撑还比较缺乏。第三,让大语言模型充分与人类 价值观或偏好对齐也是一项重要的科研挑战。尽管大语言模型已经具有较好的模 型能力,但是在特定场景下或者蓄意诱导下,仍然可能生成虚构、有害或具有负 面影响的内容。这一问题随着模型能力的提升而变得更为难于解决。为了应对模 型能力未来可能超越人类监管能力的情况,需要设计更为有效的监管方法来消除 使用大语言模型的潜在风险。综述所述,大语言模型技术的研究才刚刚开始,仍 然存在众多的研究挑战等待突破,需要研究人员和工程人员携手努力解决。 1.4大语言模型对科技发展的影响 大语言模型真正令我们震撼的地方是,它与小型预训练语言模型采用了相似 的网络架构以及训练方法,但通过扩展模型参数规模、数据数量以及算力资源,却 带来了令人意料之外的模型性能跃升。大语言模型首次实现了单一模型可以有效 解决众多复杂任务,人工智能算法从未如此强大。 大语言模型对人工智能技术的未来发展方向带来了重要影响,ChatGPT和 GPT-4的出现引发了人们对于实现通用人工智能(Artificial General Intelligence,. AGI)可能性的重新思考。2023年2月,OpenAI发布了一篇名为“Planning for AGI and beyond”的技术文章,讨论了实现通用人工智能的短期和长期计划[32]: 来自微软的研究团队也在一篇arXiv论文中详细地展示了GPT-4强大的模型性能 并认为GPT4可能被视为通用人工智能系统的早期版本[20]。随着大语言模型技 11
1.4 大语言模型对科技发展的影响 各种外部工具来提升某种特定技能。例如,人类发明了汽车,能够有效缩短通勤 的往返时间。随着应用范围的不断拓展,创建广泛的、可供大模型使用的工具资 源变得愈为重要。 尽管大语言模型技术已经取得了显著进展,但是对于它的基本原理仍然缺乏 深入的探索,很多方面还存在局限性或者提升空间。首先,大模型中某些重要能 力(如上下文学习能力)的涌现仍然缺乏形式化的理论解释,需要针对大语言模 型基础能力的形成原因进行深入研究,从而揭示大语言模型内部的工作机理。其 次,大语言模型预训练需要大规模的计算资源支持,研究各种训练策略的效果并 进行可重复性的消融实验的成本非常高昂。学术界难以获得充分的算力来系统性 研究大语言模型;虽然工业界或者大型研究机构不断推出性能优异的开源大模型, 但是这些模型的训练过程的开源程度还不够充分,许多重要的训练细节仍缺乏公 开的研究报道。特别地,现有的大语言模型非常依赖于工程方法的优化(如数据 清洗等),但是这些技术的理论支撑还比较缺乏。第三,让大语言模型充分与人类 价值观或偏好对齐也是一项重要的科研挑战。尽管大语言模型已经具有较好的模 型能力,但是在特定场景下或者蓄意诱导下,仍然可能生成虚构、有害或具有负 面影响的内容。这一问题随着模型能力的提升而变得更为难于解决。为了应对模 型能力未来可能超越人类监管能力的情况,需要设计更为有效的监管方法来消除 使用大语言模型的潜在风险。综述所述,大语言模型技术的研究才刚刚开始,仍 然存在众多的研究挑战等待突破,需要研究人员和工程人员携手努力解决。 1.4 大语言模型对科技发展的影响 大语言模型真正令我们震撼的地方是,它与小型预训练语言模型采用了相似 的网络架构以及训练方法,但通过扩展模型参数规模、数据数量以及算力资源,却 带来了令人意料之外的模型性能跃升。大语言模型首次实现了单一模型可以有效 解决众多复杂任务,人工智能算法从未如此强大。 大语言模型对人工智能技术的未来发展方向带来了重要影响,ChatGPT 和 GPT-4 的出现引发了人们对于实现通用人工智能(Artificial General Intelligence, AGI)可能性的重新思考。2023 年 2 月,OpenAI 发布了一篇名为“Planning for AGI and beyond”的技术文章,讨论了实现通用人工智能的短期和长期计划 [32]; 来自微软的研究团队也在一篇 arXiv 论文中详细地展示了 GPT-4 强大的模型性能, 并认为 GPT-4 可能被视为通用人工智能系统的早期版本 [20]。随着大语言模型技 11