2.1大语言模型的构建过程 免大规模训练开始以后进行回退和反复迭代,从而减少算力资源的浪费,提升训 练成功的几率。大语言模型的研发看似是一个算力需求型的工程,实际上相关人 才是最重要的。可以说,一个大语言模型项目的核心训练人员的能力最后会决定 模型的整体水平。 2.1.2指令微调与人类对齐 经过大规模数据预训练后的语言模型已经具备较强的模型能力,能够编码丰 富的世界知识,但是由于预训练任务形式所限,这些模型更擅长于文本补全,并 不适合直接解决具体的任务。尽管可以通过上下文学习(In-Context Learning,ICL) 等提示学习技术进行适配,但是模型自身对于任务的感知与解决能力仍然较为局 限。这里做一个简单的类比。预训练后的模型就像进入工作岗位的毕业生,尽管 学习了很多通用的文化课,具备了一定的实习经验,但是仍然需要加强面向特定 岗位的工作能力,并且深入了解工作岗位所涉及的相关要求。因此,用人单位往 往需要设置特定的培训环节,对于新入职的人员针对业务场景以及所需要的技术 进行专门提升。相似地,当预训练结束后,通常需要对于大语言模型进行微调与 对齐,使之更好地被用于任务求解,为人类服务。 目前来说,比较广泛使用的微调技术是“指令微调”(也叫做有监督微调, Supervised Fine-tuning,.SFT),通过使用任务输入与输出的配对数据进行模型训练 可以使得语言模型较好地掌握通过问答形式进行任务求解的能力。这种模仿示例 数据进行学习的过程本质属于机器学习中的模仿学习(Imitation Learning)。给定 一个特定任务,虽然可能存在很多解答方式,模仿学习旨在加强对于标准答案(即 师傅的示范动作)的复刻学习。一般来说,指令微调很难教会大语言模型预训练 阶段没有学习到的知识与能力,它主要起到了对于模型能力的激发作用,而不是 知识注入作用。与预训练相比,指令微调通常来说需要的指令实例数据规模要小 的多。通常来说,数十万到百万规模的指令微调数据能够有效地激发语言模型的 通用任务解决能力,甚至有些工作认为数千条或者数万条高质量指令数据也能达 到不错的微调效果。因此,指令微调对于算力资源的需求相对较小。一般情况下 若干台单机八卡(A100-80G)的服务器就能在一天或数天的时间内完成百亿模型 的指令微调,当指令数据规模较大的时候可以进一步增加所需要的算力资源。这 个过程还可以进一步加入多轮次的对话数据来增强模型的人机对话能力。 除了提升任务的解决能力外,还需要将大语言模型与人类的期望、需求以及
2.1 大语言模型的构建过程 免大规模训练开始以后进行回退和反复迭代,从而减少算力资源的浪费,提升训 练成功的几率。大语言模型的研发看似是一个算力需求型的工程,实际上相关人 才是最重要的。可以说,一个大语言模型项目的核心训练人员的能力最后会决定 模型的整体水平。 2.1.2 指令微调与人类对齐 经过大规模数据预训练后的语言模型已经具备较强的模型能力,能够编码丰 富的世界知识,但是由于预训练任务形式所限,这些模型更擅长于文本补全,并 不适合直接解决具体的任务。尽管可以通过上下文学习(In-Context Learning, ICL) 等提示学习技术进行适配,但是模型自身对于任务的感知与解决能力仍然较为局 限。这里做一个简单的类比。预训练后的模型就像进入工作岗位的毕业生,尽管 学习了很多通用的文化课,具备了一定的实习经验,但是仍然需要加强面向特定 岗位的工作能力,并且深入了解工作岗位所涉及的相关要求。因此,用人单位往 往需要设置特定的培训环节,对于新入职的人员针对业务场景以及所需要的技术 进行专门提升。相似地,当预训练结束后,通常需要对于大语言模型进行微调与 对齐,使之更好地被用于任务求解,为人类服务。 目前来说,比较广泛使用的微调技术是“指令微调”(也叫做有监督微调, Supervised Fine-tuning, SFT),通过使用任务输入与输出的配对数据进行模型训练, 可以使得语言模型较好地掌握通过问答形式进行任务求解的能力。这种模仿示例 数据进行学习的过程本质属于机器学习中的模仿学习(Imitation Learning)。给定 一个特定任务,虽然可能存在很多解答方式,模仿学习旨在加强对于标准答案(即 师傅的示范动作)的复刻学习。一般来说,指令微调很难教会大语言模型预训练 阶段没有学习到的知识与能力,它主要起到了对于模型能力的激发作用,而不是 知识注入作用。与预训练相比,指令微调通常来说需要的指令实例数据规模要小 的多。通常来说,数十万到百万规模的指令微调数据能够有效地激发语言模型的 通用任务解决能力,甚至有些工作认为数千条或者数万条高质量指令数据也能达 到不错的微调效果。因此,指令微调对于算力资源的需求相对较小。一般情况下, 若干台单机八卡(A100-80G)的服务器就能在一天或数天的时间内完成百亿模型 的指令微调,当指令数据规模较大的时候可以进一步增加所需要的算力资源。这 个过程还可以进一步加入多轮次的对话数据来增强模型的人机对话能力。 除了提升任务的解决能力外,还需要将大语言模型与人类的期望、需求以及 17
2.2扩展法则 价值观对齐(Alignment),这对于大模型的部署与应用具有重要的意义。OpenAI 在2022年初发布了InstructGPT[28]的学术论文,系统地介绍了如何将语言模型 进行人类对齐。具体来说,主要引入了基于人类反馈的强化学习对齐方法LHF (Reinforcement Learning from Human Feedback),在指令微调后使用强化学习加 强模型的对齐能力。在LH亚算法中,需要训练一个符合人类价值观的奖励模型 (Reward Model)。为此,需要标注人员针对大语言模型所生成的多条输出进行偏 好排序,并使用偏好数据训练奖励模型,用于判断模型的输出质量。由于强化学 习需要维护更多的辅助模型进行训练,通常来说对于资源的消耗会多于指令微调, 但是也远小于预训练阶段所需要的算力资源。目前还有很多工作试图通过消除奖 励模型的使用,或其他使用ST方式来达到与RLHF相似的效果,从而简化模型 的对齐过程。 经历上述两个过程后,大语言模型就能够具备较好的人机交互能力,通过问 答形式解决人类所提出的问题。这个构建过程需要大量的算力资源支持,也需要 具有良好洞察力和训练经验的研发人员进行相关技术路线的设计与执行。因此,实 现具有ChatGPT或者GPT4能力的大语言模型绝非易事,需要进行深入的探索与 实践。 2.2扩展法则 大语言模型获得成功的关键在于对“规模扩展”(Scaling)的充分探索与利用 在实现上,大语言模型采用了与小型预训练语言模型相似的神经网络结构(基于 注意力机制的Transformer架构)和预训练方法(如语言建模)。但是通过扩展参数 规模、数据规模和计算算力,大语言模型的能力显著超越了小型语言模型的能力。 有趣的是,这种通过扩展所带来的性能提升通常显著高于通过改进架构、算法等 方面所带来的改进。因此,建立定量的建模方法,即扩展法则(Scaling Law),来 研究规模扩展所带来的模型性能提升具有重要的实践指导意义。在本部分,将首 先介绍两种常见的语言模型扩展法则的定义,并且进一步对于扩展法则进行深入 讨论。 2.2.1KM扩展法则 2020年,Kaplan等人[15)(OpenAI团队)首次建立了神经语言模型性能与三 个主要因素一模型规模(N)、数据规模(D)和计算算力(C)之间的幂律关系 18
2.2 扩展法则 价值观对齐(Alignment),这对于大模型的部署与应用具有重要的意义。OpenAI 在 2022 年初发布了 InstructGPT [28] 的学术论文,系统地介绍了如何将语言模型 进行人类对齐。具体来说,主要引入了基于人类反馈的强化学习对齐方法 RLHF (Reinforcement Learning from Human Feedback),在指令微调后使用强化学习加 强模型的对齐能力。在 RLHF 算法中,需要训练一个符合人类价值观的奖励模型 (Reward Model)。为此,需要标注人员针对大语言模型所生成的多条输出进行偏 好排序,并使用偏好数据训练奖励模型,用于判断模型的输出质量。由于强化学 习需要维护更多的辅助模型进行训练,通常来说对于资源的消耗会多于指令微调, 但是也远小于预训练阶段所需要的算力资源。目前还有很多工作试图通过消除奖 励模型的使用,或其他使用 SFT 方式来达到与 RLHF 相似的效果,从而简化模型 的对齐过程。 经历上述两个过程后,大语言模型就能够具备较好的人机交互能力,通过问 答形式解决人类所提出的问题。这个构建过程需要大量的算力资源支持,也需要 具有良好洞察力和训练经验的研发人员进行相关技术路线的设计与执行。因此,实 现具有 ChatGPT 或者 GPT-4 能力的大语言模型绝非易事,需要进行深入的探索与 实践。 2.2 扩展法则 大语言模型获得成功的关键在于对“规模扩展”(Scaling)的充分探索与利用。 在实现上,大语言模型采用了与小型预训练语言模型相似的神经网络结构(基于 注意力机制的 Transformer 架构)和预训练方法(如语言建模)。但是通过扩展参数 规模、数据规模和计算算力,大语言模型的能力显著超越了小型语言模型的能力。 有趣的是,这种通过扩展所带来的性能提升通常显著高于通过改进架构、算法等 方面所带来的改进。因此,建立定量的建模方法,即扩展法则(Scaling Law),来 研究规模扩展所带来的模型性能提升具有重要的实践指导意义。在本部分,将首 先介绍两种常见的语言模型扩展法则的定义,并且进一步对于扩展法则进行深入 讨论。 2.2.1 KM 扩展法则 2020 年,Kaplan 等人 [15](OpenAI 团队)首次建立了神经语言模型性能与三 个主要因素——模型规模(𝑁)、数据规模(𝐷)和计算算力(𝐶)之间的幂律关系 18
2.2扩展法则 (Power--Law Relationship)。由于原始论文中没有给出具体的扩展法则命名,本部分 内容中使用两位共同第一作者姓氏的首字母来进行命名。在给定算力预算c的条 件下,可以近似得到以下三个基本指数公式来描述扩展法则: L(= ,aN~0.076N~8.8×103 (2.1) L(D)= D,0D~0.095,D、5.4×10 L(C)= C".ac-005.c.-3.1x1o 这里,L()表示用以nat'为单位的交叉嫡损失。其中,Nc、Dc和Cc分别表示非 嵌入参数数量、训练数据数量和实际的算力开销。为了便于讨论,我们在不影响 表达和理解的情况下对于原始的公式符号进行了适度简化。这三个公式是通过模 型在不同数据规模(22M到23B词元)、模型规模(768M到1.5B非嵌入参数)和 算力规模下的性能表现拟合推导得到的。为了推导这些公式,需要约定一些基本 假设:一个因素的分析不会受到其他两个因索的限制,如当变动模型参数规模的 时候,需要保证数据资源是充足的。 由公式21可见,模型性能与这三个因素之间存在着较强的依赖关系,可以 近似刻画为指数关系。上述公式为规模扩展效应提供了一种定量的普适建模方法。 通过普适规则能够更好地探究问题的本质,排除其他复杂因素的影响与干扰(如 OpenAI研究团队发现模型形状对于上述公式的影响并不大)。 为了便于理解扩展法则对于模型性能的影响,OpenAI的研究团队又将这里的 损失函数进一步分解为两部分[21),包括不可约损失(真实数据分布的熵)和可 约损失(真实分布和模型分布之间L散度的估计): (2.2) 不可约损失可约损失 这里x是一个占位符号,可以指代公式21中的N、D和C。其中,不可约损失由 数据自身特征确定,无法通过扩展法则或者优化算法进行约减;模型性能的优化 只能减小可约损失部分。 'nat用来表示以e为底信息量的自然对数
2.2 扩展法则 (Power-Law Relationship)。由于原始论文中没有给出具体的扩展法则命名,本部分 内容中使用两位共同第一作者姓氏的首字母来进行命名。在给定算力预算 𝑐 的条 件下,可以近似得到以下三个基本指数公式来描述扩展法则: 𝐿(𝑁) = 𝑁𝑐 𝑁 𝛼𝑁 , 𝛼𝑁 ∼ 0.076, 𝑁𝑐 ∼ 8.8 × 1013 (2.1) 𝐿(𝐷) = 𝐷𝑐 𝐷 𝛼𝐷 , 𝛼𝐷 ∼ 0.095, 𝐷𝑐 ∼ 5.4 × 1013 𝐿(𝐶) = 𝐶𝑐 𝐶 𝛼𝐶 , 𝛼𝐶 ∼ 0.050, 𝐶𝑐 ∼ 3.1 × 108 这里,𝐿(·) 表示用以 nat1为单位的交叉熵损失。其中,𝑁𝑐、𝐷𝑐 和 𝐶𝑐 分别表示非 嵌入参数数量、训练数据数量和实际的算力开销。为了便于讨论,我们在不影响 表达和理解的情况下对于原始的公式符号进行了适度简化。这三个公式是通过模 型在不同数据规模(22M 到 23B 词元)、模型规模(768M 到 1.5B 非嵌入参数)和 算力规模下的性能表现拟合推导得到的。为了推导这些公式,需要约定一些基本 假设:一个因素的分析不会受到其他两个因素的限制,如当变动模型参数规模的 时候,需要保证数据资源是充足的。 由公式 2.1 可见,模型性能与这三个因素之间存在着较强的依赖关系,可以 近似刻画为指数关系。上述公式为规模扩展效应提供了一种定量的普适建模方法。 通过普适规则能够更好地探究问题的本质,排除其他复杂因素的影响与干扰(如 OpenAI 研究团队发现模型形状对于上述公式的影响并不大)。 为了便于理解扩展法则对于模型性能的影响,OpenAI 的研究团队又将这里的 损失函数进一步分解为两部分 [21],包括不可约损失(真实数据分布的熵)和可 约损失(真实分布和模型分布之间 KL 散度的估计): 𝐿(𝑥) = 𝐿∞ |{z} 不可约损失 + 𝑥0 𝑥 𝛼𝑥 | {z } 可约损失 , (2.2) 这里 𝑥 是一个占位符号,可以指代公式 2.1 中的 𝑁、𝐷 和 𝐶。其中,不可约损失由 数据自身特征确定,无法通过扩展法则或者优化算法进行约减;模型性能的优化 只能减小可约损失部分。 1nat 用来表示以 e 为底信息量的自然对数。 19
2.2扩展法则 2.2.2 Chinchilla扩展法则 Hoffmann等人[22](DeepMind团队)于2022年提出了一种可选的扩展法则, 旨在指导大语言模型充分利用给定的算力资源进行优化训练。通过针对更大范围 的模型规模(70M到16B参数)和数据规模(5B到500B词元)进行实验,研究 人员拟合得到了另一种关于模型性能的幂律关系: ND)=E+点+品 B (2.3) 其中E=1.69,A=406.4,B=410.7,a=0.34和B=0.28。进一步,利用约束条件 C≈6ND对于损失函数L(N,D)进行推导,能够获得算力资源固定情况下模型规 模与数据规模的最优分配方案(如下所示): N.c-).DuC- (2.4 这里,a=B,b=品,G是由A、B、:和B计算得出的扩展系数。 进一步,研究人员[22]发现KM扩展法则和Chinchilla扩展法则都可以近似 表示成上述算力为核心的公式(公式2.4): Nopt≈C,Dopt≈Cb, (2.5) 即当算力C给定的情况下,最优的模型参数规模和数据规模由指数系数a和b分 别确定。可以看到,a和b决定了参数规模和数据规模的资源分配优先级:当a>b 时,应该用更多的算力去提高参数规模;当b>α时,应该用更多的算力去提高 数据规模。尽管KM扩展法则和Chinchilla扩展法则具有相似的公式形式,但是在 模型规模和数据规模的扩展上存在一定的差异。随着算力预算的增加,KM扩展 法则(a≈0.73,b≈0.27[22])倾向于将更大的预算分配给模型规模的增加,而 不是分配给数据规模的增加;而Chinchilla扩展法则主张两种规模参数应该以等比 例关系增加(a≈0.46,b≈0.54[22])。 Chinchilla扩展法则这项研究的意义并不在于给出了资源在数据规模与模型规 模上的具体分配方案,而是首次形式化指出了之前的预训练工作可能忽视了训练 数据的规模扩展。例如,具有175B参数的GPT-3仅仅使用了300B的词元进行训练 所使用的数据量远远没有达到模型能够编码的最大数据容量。根据Chinchilla扩展 法则的指导,DeepMind的研究团队进一步训练得到了具有OB参数的Chinchilla 模型,使用大概1.4T的词元进行训练。虽然后续有些人借鉴Chinchilla模型的线
2.2 扩展法则 2.2.2 Chinchilla 扩展法则 Hoffmann 等人 [22](DeepMind 团队)于 2022 年提出了一种可选的扩展法则, 旨在指导大语言模型充分利用给定的算力资源进行优化训练。通过针对更大范围 的模型规模(70M 到 16B 参数)和数据规模(5B 到 500B 词元)进行实验,研究 人员拟合得到了另一种关于模型性能的幂律关系: 𝐿(𝑁, 𝐷) = 𝐸 + 𝐴 𝑁𝛼 + 𝐵 𝐷𝛽 , (2.3) 其中 𝐸 = 1.69, 𝐴 = 406.4, 𝐵 = 410.7,𝛼 = 0.34 和 𝛽 = 0.28。进一步,利用约束条件 𝐶 ≈ 6𝑁𝐷 对于损失函数 𝐿(𝑁, 𝐷) 进行推导,能够获得算力资源固定情况下模型规 模与数据规模的最优分配方案(如下所示): 𝑁opt(𝐶) = 𝐺 𝐶 6 𝑎 , 𝐷opt(𝐶) = 𝐺 −1 𝐶 6 𝑏 , (2.4) 这里,𝑎 = 𝛼 𝛼+𝛽,𝑏 = 𝛽 𝛼+𝛽,𝐺 是由 𝐴、𝐵、𝛼 和 𝛽 计算得出的扩展系数。 进一步,研究人员 [22] 发现 KM 扩展法则和 Chinchilla 扩展法则都可以近似 表示成上述算力为核心的公式(公式 2.4): 𝑁opt ≈ 𝐶 𝑎 , 𝐷opt ≈ 𝐶 𝑏 , (2.5) 即当算力 𝐶 给定的情况下,最优的模型参数规模和数据规模由指数系数 𝑎 和 𝑏 分 别确定。可以看到,𝑎 和 𝑏 决定了参数规模和数据规模的资源分配优先级:当 𝑎 > 𝑏 时,应该用更多的算力去提高参数规模;当 𝑏 > 𝑎 时,应该用更多的算力去提高 数据规模。尽管 KM 扩展法则和 Chinchilla 扩展法则具有相似的公式形式,但是在 模型规模和数据规模的扩展上存在一定的差异。随着算力预算的增加,KM 扩展 法则(𝑎 ≈ 0.73, 𝑏 ≈ 0.27 [22] )倾向于将更大的预算分配给模型规模的增加,而 不是分配给数据规模的增加;而 Chinchilla 扩展法则主张两种规模参数应该以等比 例关系增加(𝑎 ≈ 0.46, 𝑏 ≈ 0.54 [22])。 Chinchilla 扩展法则这项研究的意义并不在于给出了资源在数据规模与模型规 模上的具体分配方案,而是首次形式化指出了之前的预训练工作可能忽视了训练 数据的规模扩展。例如,具有 175B 参数的 GPT-3 仅仅使用了 300B 的词元进行训练, 所使用的数据量远远没有达到模型能够编码的最大数据容量。根据 Chinchilla 扩展 法则的指导,DeepMind 的研究团队进一步训练得到了具有 70B 参数的 Chinchilla 模型,使用大概 1.4T 的词元进行训练。虽然后续有些人借鉴 Chinchilla 模型的线 20
2.2扩展法则 性分配比例(数据规模大概是模型参数规模的五倍),但是目前这一分配系数已经 基本没有参考意义了。越来越多的工作表明,现有的预训练语言模型对于数据的 需求量远高于这些扩展法则中所给出的估计规模。例如,LLMA-2(7B)的模型就 使用了2T的词元进行训练,很多更小的模型也能够通过使用超大规模的预训练数 据获得较大的模型性能提升。这种现象的一个重要原因是由于Transformer架构具 有较好的数据扩展性,到目前为止,还没有实验能够有效验证特定参数规模语言 模型的饱和数据规模(即随着数据规模的扩展,模型性能不再提升)。 2.2.3关于扩展法则的讨论 在介绍完上述两个扩展法则后,我们围绕可预测的扩展以及任务层面的可预 测性展开深入讨论,以加强读者对于扩展法则的理解。 ·可预测的扩展(Predictable Scaling):在实践中,扩展法则可以用于指导大 语言模型的训练,通过较小算力资源可靠地估计较大算力资源投入后的模型性能 这被称为可预测的扩展[35]。这种可预测性主要体现在两个方面:使用小模型的 性能去预估大模型的性能,或者使用大模型的早期训练性能去估计训练完成后的 性能。可预测扩展对于大模型训练具有两个主要的指导作用。首先,对于大语言 模型来说,详细进行各种训练技巧或变体的测试需要耗费巨大的算力资源。因此, 一个较为理想的经验性方法是,基于小模型获得训练经验然后应用于大模型的训 练,从而减少实验成本。例如,可以训练小型代理模型来确定适合大型模型的预 训练数据混合的最佳比例[36)。其次,大语言模型的训练过程较长,经常面临着 训练损失波动情况,扩展法则可以用于监控大语言模型的训练状态,如在早期识 别异常性能。尽管扩展法则刻画了模型性能增长(或模型损失减少)的平滑趋势 但是指数形式的变化趋势意味着可能会出现随规模扩展的收益递减情况,即后期 的扩展增益开始变得缓慢甚至停滞。根据OpenAI团队的一项研究表明[21],即使 接近递减收益点(即接近不可规约的模型损失,见公式22),模型表征的质量仍 然能够随着规模扩展而有效提升[2川。这一发现表明,训练大型模型对于改善下 游任务的性能是非常重要的。随着模型规模的不断增加,一个潜在问题是可供用 来训练大语言模型的数据量实际上是有限的,公共文本数据将很快变得“枯竭” 因此,如何在数据受限的情况下建模扩展法则,仍然具有重要的实践意义。在这 情况下,数据重复或数据合成可能有助于缓解数据稀缺问题。 ·任务层面的可预测性.现有关于扩展法则的研究大多数是基于语言建模损失 21
2.2 扩展法则 性分配比例(数据规模大概是模型参数规模的五倍),但是目前这一分配系数已经 基本没有参考意义了。越来越多的工作表明,现有的预训练语言模型对于数据的 需求量远高于这些扩展法则中所给出的估计规模。例如,LLaMA-2 (7B) 的模型就 使用了 2T 的词元进行训练,很多更小的模型也能够通过使用超大规模的预训练数 据获得较大的模型性能提升。这种现象的一个重要原因是由于 Transformer 架构具 有较好的数据扩展性,到目前为止,还没有实验能够有效验证特定参数规模语言 模型的饱和数据规模(即随着数据规模的扩展,模型性能不再提升)。 2.2.3 关于扩展法则的讨论 在介绍完上述两个扩展法则后,我们围绕可预测的扩展以及任务层面的可预 测性展开深入讨论,以加强读者对于扩展法则的理解。 • 可预测的扩展(Predictable Scaling):在实践中,扩展法则可以用于指导大 语言模型的训练,通过较小算力资源可靠地估计较大算力资源投入后的模型性能, 这被称为可预测的扩展 [35]。这种可预测性主要体现在两个方面:使用小模型的 性能去预估大模型的性能,或者使用大模型的早期训练性能去估计训练完成后的 性能。可预测扩展对于大模型训练具有两个主要的指导作用。首先,对于大语言 模型来说,详细进行各种训练技巧或变体的测试需要耗费巨大的算力资源。因此, 一个较为理想的经验性方法是,基于小模型获得训练经验然后应用于大模型的训 练,从而减少实验成本。例如,可以训练小型代理模型来确定适合大型模型的预 训练数据混合的最佳比例 [36]。其次,大语言模型的训练过程较长,经常面临着 训练损失波动情况,扩展法则可以用于监控大语言模型的训练状态,如在早期识 别异常性能。尽管扩展法则刻画了模型性能增长(或模型损失减少)的平滑趋势, 但是指数形式的变化趋势意味着可能会出现随规模扩展的收益递减情况,即后期 的扩展增益开始变得缓慢甚至停滞。根据 OpenAI 团队的一项研究表明 [21],即使 接近递减收益点(即接近不可规约的模型损失,见公式 2.2),模型表征的质量仍 然能够随着规模扩展而有效提升 [21]。这一发现表明,训练大型模型对于改善下 游任务的性能是非常重要的。随着模型规模的不断增加,一个潜在问题是可供用 来训练大语言模型的数据量实际上是有限的,公共文本数据将很快变得“枯竭”。 因此,如何在数据受限的情况下建模扩展法则,仍然具有重要的实践意义。在这 一情况下,数据重复或数据合成可能有助于缓解数据稀缺问题。 • 任务层面的可预测性. 现有关于扩展法则的研究大多数是基于语言建模损失 21