7.1.3基于合成数据构建 7.1.4指令数据构建的提升方法 142 7.15指令微调的作用.·····...··.·.·.144 7.2指令微调的训练策略 7.2.1优化设置.. 146 7.2.2数据组织策略 .146 7.3参数高效的模型微调 .148 7.3.1低秩适配微调方法 148 732其他高效微调方法··.·...·...·.........·..150 7.4代码实践与分析.·· ..153 7.4.1指令微调的代码实践 .153 7.4.2指令微调的实验性分析 ,157 7.4.3LoRA代码实践与分析 .160 第八章人类对齐 8.1人类对齐的背景与标准 164 811背景...164 8.1.2对齐标准..· ······.166 8.2基于人类反馈的强化学习 8.21RLHF概述...........................167 8.2.2人类反馈数据的收集 .169 8.2.3奖励模型的训练 171 8.2.4强化学习训练 .175 8.25代表性RLHF工作介绍 .181 8.2.6进阶RLHF工作介绍 83非强化学习的对济方法.····.·.·····.··.185 8.3.1对齐数据的收集 .186 8.3.2代表性监督对齐算法DPO .187 83.3其他有监督对齐算法······················ .193 8.4关于SFT和RLHF的进一步讨论 194 8.4.1基于学习方式的总体比较 ........195 8.4.2SFT的优缺点............................196
7.1.3 基于合成数据构建 . . . . . . . . . . . . . . . . . . . . . . . . . 139 7.1.4 指令数据构建的提升方法 . . . . . . . . . . . . . . . . . . . . . 142 7.1.5 指令微调的作用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 7.2 指令微调的训练策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.2.1 优化设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.2.2 数据组织策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.3 参数高效的模型微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.3.1 低秩适配微调方法 . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.3.2 其他高效微调方法 . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.4 代码实践与分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4.1 指令微调的代码实践 . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4.2 指令微调的实验性分析 . . . . . . . . . . . . . . . . . . . . . . . 157 7.4.3 LoRA 代码实践与分析 . . . . . . . . . . . . . . . . . . . . . . . 160 第八章 人类对齐 164 8.1 人类对齐的背景与标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.1.2 对齐标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.2 基于人类反馈的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.2.1 RLHF 概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.2.2 人类反馈数据的收集 . . . . . . . . . . . . . . . . . . . . . . . . 169 8.2.3 奖励模型的训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 8.2.4 强化学习训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 8.2.5 代表性 RLHF 工作介绍 . . . . . . . . . . . . . . . . . . . . . . . 181 8.2.6 进阶 RLHF 工作介绍 . . . . . . . . . . . . . . . . . . . . . . . . 183 8.3 非强化学习的对齐方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3.1 对齐数据的收集 . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.3.2 代表性监督对齐算法 DPO . . . . . . . . . . . . . . . . . . . . . 187 8.3.3 其他有监督对齐算法 . . . . . . . . . . . . . . . . . . . . . . . . 193 8.4 关于 SFT 和 RLHF 的进一步讨论 . . . . . . . . . . . . . . . . . . . . . 194 8.4.1 基于学习方式的总体比较 . . . . . . . . . . . . . . . . . . . . . 195 8.4.2 SFT 的优缺点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
84.3LHF的优缺点·················· ··.196 第四部分大模型使用 198 第九章解码与部署 199 9.1解码策略 199 9.1.1背景 .199 9.1.2贪心搜素的改进 201 91.3随机采样的改进策略.········.··..··.·.202 9.14实际使用设置..·..·…..204 9.2解码加速算法.., .205 9.2.1解码效率分析 .206 9.2.2系统级优化 ,210 9.2.3解码策略优化 211 9.2.4解码代码实践 .213 9.3低资源部署策略...·.····....··.···...·215 9.3.1量化基础知识·· ·.216 9.3.2大模型训练后量化方法 .219 9.3.3经验性分析与相关结论 224 9.4其他模型压缩方法 226 227 9.4.2模型剪枝 229 第十章提示学习 233 10.1基础提示 .233 10.1.1人工提示设计 .....233 10.1.2自动提示优化 .240 10.2上下文学习. .243 1021上下文学习的形式化定义··············· 243 10.2.2示例设计 244 .248 10.3思维链提示...... .251
8.4.3 RLHF 的优缺点 . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 第四部分 大模型使用 198 第九章 解码与部署 199 9.1 解码策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 9.1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 9.1.2 贪心搜索的改进 . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 9.1.3 随机采样的改进策略 . . . . . . . . . . . . . . . . . . . . . . . . 202 9.1.4 实际使用设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 9.2 解码加速算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 9.2.1 解码效率分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 9.2.2 系统级优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 9.2.3 解码策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 9.2.4 解码代码实践 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 9.3 低资源部署策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 9.3.1 量化基础知识 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 9.3.2 大模型训练后量化方法 . . . . . . . . . . . . . . . . . . . . . . . 219 9.3.3 经验性分析与相关结论 . . . . . . . . . . . . . . . . . . . . . . . 224 9.4 其他模型压缩方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 9.4.1 模型蒸馏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 9.4.2 模型剪枝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 第十章 提示学习 233 10.1 基础提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.1.1 人工提示设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.1.2 自动提示优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 10.2 上下文学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 10.2.1 上下文学习的形式化定义 . . . . . . . . . . . . . . . . . . . . . 243 10.2.2 示例设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 10.2.3 底层机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 10.3 思维链提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
10.3.1思维链提示的基本形式 ·····..251 1032思维链提示的优化策略.········.··.·。·.··. .252 10.3.3关于思维链的进一步讨论.···..·····.·...,,..255 第十一章规划与智能体 258 11.1基于大语言模型的规划 …258 111.1整体框架··. 258 1112方案生成… .259 263 11.2基于大语言模型的智能体 。。。。。。。。。。。。。。。。。。。t。。。。 264 1121智能体概述..·....·...·...·..264 1122大语言模型智能体的构建...265 112.3多智能体系统的构建···· .268 11.2.4大语言模型智能体的典型应用 .270 112.5待解决的关键技术问题。··········…········ ,271 第五部分评测与应用 274 第十二章评测 275 12.1评测指标与评测方法 275 12.1.1常见评测指标 .275 1212评测范式与方法·。..·.281 122基础能力评测···· .285 12.2.1语言生成··· ,285 12.2.2知识利用 291 1223复杂推理·.·.······· ,297 12.3高级能力评测 304 1231人类对齐,····。,,··。·。· 30g 12.3.2环境交互... .......307 12.3.3工具使用 .308 12.4公开综合评测体系 .311 311
10.3.1 思维链提示的基本形式 . . . . . . . . . . . . . . . . . . . . . . 251 10.3.2 思维链提示的优化策略 . . . . . . . . . . . . . . . . . . . . . . 252 10.3.3 关于思维链的进一步讨论 . . . . . . . . . . . . . . . . . . . . . 255 第十一章 规划与智能体 258 11.1 基于大语言模型的规划 . . . . . . . . . . . . . . . . . . . . . . . . . . 258 11.1.1 整体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 11.1.2 方案生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 11.1.3 反馈获取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 11.2 基于大语言模型的智能体 . . . . . . . . . . . . . . . . . . . . . . . . . 264 11.2.1 智能体概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 11.2.2 大语言模型智能体的构建 . . . . . . . . . . . . . . . . . . . . . 265 11.2.3 多智能体系统的构建 . . . . . . . . . . . . . . . . . . . . . . . 268 11.2.4 大语言模型智能体的典型应用 . . . . . . . . . . . . . . . . . . 270 11.2.5 待解决的关键技术问题 . . . . . . . . . . . . . . . . . . . . . . 271 第五部分 评测与应用 274 第十二章 评测 275 12.1 评测指标与评测方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 12.1.1 常见评测指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 12.1.2 评测范式与方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 281 12.2 基础能力评测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 12.2.1 语言生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 12.2.2 知识利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 12.2.3 复杂推理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 12.3 高级能力评测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 12.3.1 人类对齐 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 12.3.2 环境交互 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 12.3.3 工具使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 12.4 公开综合评测体系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 12.4.1 MMLU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
12.4.2BIG-Bench···········.312 1243HeLM..313 1244C-Evl..314 12.4.5其他评测数据集与资源 315 124.6公开评测资源选择参考···················.317 12.4.7评测代码实践.,.......,...........,...318 第十三章应用 320 13.1大语言模型在研究领域的应用,·,· 13.11传统自然语言处理任务中的大语言模型.···········.320 13.12信息检索中的大语言模型。············· .322 13.1.3推荐系统中的大语言模型 326 131.4多模态大语言模型。·…···················· 329 13.1.5知识图谱增强的大语言模型 ,333 13.2大语言模型在专业领域的应用..,,,.·...·····,·.336 13.2.1医疗场景下的大语言模型.........·...·....336 13.2.2教育场景下的大语言模型.·. .339 13.2.3法律场景下的大语言模型.················ .340 13.2.4金融场景下的大语言模型.·· ,341 13.2.5科学研究场景下的大语言模型··············· 343 第十四章总结 345 参考文献 350
12.4.2 BIG-Bench . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 12.4.3 HELM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 12.4.4 C-Eval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 12.4.5 其他评测数据集与资源 . . . . . . . . . . . . . . . . . . . . . . 315 12.4.6 公开评测资源选择参考 . . . . . . . . . . . . . . . . . . . . . . 317 12.4.7 评测代码实践 . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 第十三章 应用 320 13.1 大语言模型在研究领域的应用 . . . . . . . . . . . . . . . . . . . . . . 320 13.1.1 传统自然语言处理任务中的大语言模型 . . . . . . . . . . . . . 320 13.1.2 信息检索中的大语言模型 . . . . . . . . . . . . . . . . . . . . . 322 13.1.3 推荐系统中的大语言模型 . . . . . . . . . . . . . . . . . . . . . 326 13.1.4 多模态大语言模型 . . . . . . . . . . . . . . . . . . . . . . . . . 329 13.1.5 知识图谱增强的大语言模型 . . . . . . . . . . . . . . . . . . . 333 13.2 大语言模型在专业领域的应用 . . . . . . . . . . . . . . . . . . . . . . 336 13.2.1 医疗场景下的大语言模型 . . . . . . . . . . . . . . . . . . . . . 336 13.2.2 教育场景下的大语言模型 . . . . . . . . . . . . . . . . . . . . . 339 13.2.3 法律场景下的大语言模型 . . . . . . . . . . . . . . . . . . . . . 340 13.2.4 金融场景下的大语言模型 . . . . . . . . . . . . . . . . . . . . . 341 13.2.5 科学研究场景下的大语言模型 . . . . . . . . . . . . . . . . . . 343 第十四章 总结 345 参考文献 350
第一部分 背景与基础知识
第一部分 背景与基础知识