《强化学习》课程大纲一、课程信息课程名称:强化学习(ReinforcementLearning)课程代码:CSTO271课程性质:选修课学时学分:32学时(理论学时)/2学分开课学期:6适用专业:智能科学与技术、图灵班先修课程:线性代数、离散数学、概率论与数理统计、微积分、算法分析与设计、数据结构、高级程序设计语言,人工智能导论后续课程:深度学习、计算机视觉、自然语言处理二、课程简介强化学习是人工智能的重要分支,使计算机能够通过与环境的交互学习最优决策策略。本课程介绍强化学习的基本理论与方法,包括马尔可夫决策过程、价值函数、策略梯度和深度强化学习等内容,是一门理论性、技术性和实践性兼备的专业选修课程。课程旨在为计算机科学中人工智能相关课程提供核心知识和基础,培养学生在智能系统设计与优化方面的能力。三、课程标课程面向计算机科学与技术、人工智能和智能科学等相关专业本科学生,针对强化学习的基础知识、基本方法及一般应用,通过各项教学活动达到如下目标:目标1:培养学生对马尔可夫决策过程、贝尔曼方程等强化学习基础理论的深度理解。鼓励学生思考这些理论在解决复杂智能决策问题中的关键作用,能够将数学和算法思想融会贯通,应用于强化学习模型的构建和分析。目标2:系统学习强化学习的经典算法和最新技术,包括Q学习、SARSA、策略梯度、深度强化学习等。通过习题讨论、实验和课程设计,使学生熟练应用这些算法解决实际问题
《强化学习》课程大纲 一、课程信息 课程名称:强化学习 (Reinforcement Learning) 课程代码:CST0271 课程性质:选修课 学时学分: 32 学时(理论学时)/ 2 学分 开课学期:6 适用专业:智能科学与技术、图灵班 先修课程:线性代数、离散数学、概率论与数理统计、微积分、算法分析与设计、 数据结构、高级程序设计语言,人工智能导论 后续课程:深度学习、计算机视觉、自然语言处理 二、课程简介 强化学习是人工智能的重要分支,使计算机能够通过与环境的交互学习最优决策策 略。本课程介绍强化学习的基本理论与方法,包括马尔可夫决策过程、价值函数、策略 梯度和深度强化学习等内容,是一门理论性、技术性和实践性兼备的专业选修课程。课 程旨在为计算机科学中人工智能相关课程提供核心知识和基础,培养学生在智能系统设 计与优化方面的能力。 三、课程目标 课程面向计算机科学与技术、人工智能和智能科学等相关专业本科学生,针对强 化学习的基础知识、基本方法及一般应用,通过各项教学活动达到如下目标: 目标 1: 培养学生对马尔可夫决策过程、贝尔曼方程等强化学习基础理论的深度理 解。鼓励学生思考这些理论在解决复杂智能决策问题中的关键作用,能够将数学和算法 思想融会贯通,应用于强化学习模型的构建和分析。 目标 2: 系统学习强化学习的经典算法和最新技术,包括 Q 学习、SARSA、策略梯 度、深度强化学习等。通过习题讨论、实验和课程设计,使学生熟练应用这些算法解决 实际问题
四、课程目标对毕业要求的支撑关系课程目标支撑的毕业要求二级指标点10.1能就专业问题,以口头、文稿、图表等方式,准确表达自已的观课程目标1点,回应质疑,理解与同行和社会公众等不同对象及不同方式交流的差异性12.1能认识到信息技术快速发展的特点,认同自主学习和终身学习的课程目标2必要性。五、课程内容第一章强化学习导论1)介绍强化学习的基本概念和背景。2)探讨强化学习在人工智能中的定位,与监督学习和非监督学习的区别。3)展示强化学习在机器人控制、游戏AI等领域的应用案例。第二章马尔可夫决策过程1)学习马尔可夫决策过程的框架和数学定义。2)理解状态、动作、奖励、转移概率等基本元素。3)探索如何将现实问题建模为MDP,为后续算法的应用奠定基础。第三章基于动态规划的规划方法1)了解动态规划在求解MDP中的作用。2)学习策略评估和策略改进的方法。3)价值迭代和策略迭代算法的原理和实现。第四章无模型的预测方法1)引入无需环境模型的预测方法。2)学习蒙特卡罗方法,理解其在评估策略价值中的应用。3)探索时序差分学习的概念和优势。第五章无模型的控制方法1)深入研究如何在未知环境中学习最优策略。2)学习Q学习和SARSA算法,理解它们的区别和适用场景。3)探索与利用,如何平衡尝试新策略和利用已知最佳策略。第六章价值函数近似1)探讨在大型或连续状态空间中,如何使用函数近似方法。2)学习线性函数近似和非线性函数近似的技术。3)了解深度强化学习的基础,为处理复杂问题提供工具。第七章策略梯度方法1)介绍直接优化策略的策略梯度方法。2)学习REINFORCE算法,理解策略梯度的计算和应用
四、课程目标对毕业要求的支撑关系 课程目标 支撑的毕业要求二级指标点 课程目标 1 10.1 能就专业问题,以口头、文稿、图表等方式,准确表达自己的观 点,回应质疑,理解与同行和社会公众等不同对象及不同方式交流的差 异性 课程目标 2 12.1 能认识到信息技术快速发展的特点,认同自主学习和终身学习的 必要性。 五、课程内容 第一章 强化学习导论 1) 介绍强化学习的基本概念和背景。 2) 探讨强化学习在人工智能中的定位,与监督学习和非监督学习的区别。 3) 展示强化学习在机器人控制、游戏 AI 等领域的应用案例。 第二章 马尔可夫决策过程 1) 学习马尔可夫决策过程的框架和数学定义。 2) 理解状态、动作、奖励、转移概率等基本元素。 3) 探索如何将现实问题建模为 MDP,为后续算法的应用奠定基础。 第三章 基于动态规划的规划方法 1) 了解动态规划在求解 MDP 中的作用。 2) 学习策略评估和策略改进的方法。 3) 价值迭代和策略迭代算法的原理和实现。 第四章 无模型的预测方法 1) 引入无需环境模型的预测方法。 2) 学习蒙特卡罗方法,理解其在评估策略价值中的应用。 3) 探索时序差分学习的概念和优势。 第五章 无模型的控制方法 1) 深入研究如何在未知环境中学习最优策略。 2) 学习 Q 学习和 SARSA 算法,理解它们的区别和适用场景。 3) 探索与利用,如何平衡尝试新策略和利用已知最佳策略。 第六章 价值函数近似 1) 探讨在大型或连续状态空间中,如何使用函数近似方法。 2) 学习线性函数近似和非线性函数近似的技术。 3) 了解深度强化学习的基础,为处理复杂问题提供工具。 第七章 策略梯度方法 1) 介绍直接优化策略的策略梯度方法。 2) 学习 REINFORCE 算法,理解策略梯度的计算和应用
3)探讨基于策略的方法与基于价值的方法的优劣。第八章整合学习与规划1)研究结合模型学习和规划的方法。2)理解在未知环境中,如何高效地学习和规划。3)探索模型的利用与更新策略。第九章探索与利用的平衡1)深入探讨探索新策略与利用已有知识的平衡问题。2)学习多臂老虎机问题,理解上置信界算法。3)探讨在不同环境和应用中,如何设计有效的探索策略。第十章强化学习在经典游戏中的应用1)分析强化学习在经典游戏中的成功应用。2)学习AlphaGo和DeepQ-Network等模型的原理。3)讨论强化学习在复杂环境中的挑战和未来发展方向。六、学时分配序号主要内容支撑课程目标学时分配12强化学习导论课程目标124课程目标1马尔可夫决策过程32课程目标1基于动态规划的规划方法44无模型的预测方法课程目标1,252无模型的控制方法课程目标1,264价值函数近似课程目标1,274策略梯度方法课程目标1,284整合学习与规划课程目标1,294探索与利用的平衡课程目标1,2210强化学习在经典游戏中的应用课程目标1,232总计七、课程评价1.课程成绩构成课程成绩由平时成绩、课程报告成绩综合而成,各部分成绩的比例如下:
3) 探讨基于策略的方法与基于价值的方法的优劣。 第八章 整合学习与规划 1) 研究结合模型学习和规划的方法。 2) 理解在未知环境中,如何高效地学习和规划。 3) 探索模型的利用与更新策略。 第九章 探索与利用的平衡 1) 深入探讨探索新策略与利用已有知识的平衡问题。 2) 学习多臂老虎机问题,理解上置信界算法。 3) 探讨在不同环境和应用中,如何设计有效的探索策略。 第十章 强化学习在经典游戏中的应用 1) 分析强化学习在经典游戏中的成功应用。 2) 学习 AlphaGo 和 Deep Q-Network 等模型的原理。 3) 讨论强化学习在复杂环境中的挑战和未来发展方向。 六、学时分配 序号 主要内容 支撑课程目标 学时分配 1 强化学习导论 课程目标 1 2 2 马尔可夫决策过程 课程目标 1 4 3 基于动态规划的规划方法 课程目标 1 2 4 无模型的预测方法 课程目标 1,2 4 5 无模型的控制方法 课程目标 1,2 2 6 价值函数近似 课程目标 1,2 4 7 策略梯度方法 课程目标 1,2 4 8 整合学习与规划 课程目标 1,2 4 9 探索与利用的平衡 课程目标 1,2 4 10 强化学习在经典游戏中的应用 课程目标 1,2 2 总计 32 七、课程评价 1. 课程成绩构成 课程成绩由平时成绩、课程报告成绩综合而成,各部分成绩的比例如下:
平时成绩:30%。这部分成绩为形成性评价成绩,包括课后作业、随堂测验、课堂表现等部分的成绩构成。课程报告成绩:70%。本课程结课考查采用撰写课程报告的形式。课程考核成绩评定如表1所示。表1课程考核与成绩评定考核与评价方式及成绩占所在项的比例(约)课程目标平时成绩课程报告成绩150%30%250%70%总成绩平时总成绩×0.3+课程报告总成绩×0.72.考核与评价标准表2课程目标1评定标准等级评定标准优秀能准确阐述相关理论概念,清晰解释其数学原理和内在联系;能将数学和算(90-法思想融会贯通,创新性地应用于复杂智能决策问题的建模和分析;推理分100)析严谨,过程完整,结论正确。对强化学习基础理论有较深入的理解,能正确说明主要概念和原理;能将数良好学和算法思想有效地应用于智能决策问题的建模和分析:推理分析较为严(75-89)谨,过程较完整,结论正确。对强化学习基础理论有基本的理解,能阐述主要概念;在应用数学和算法思中想解决问题时,存在一定困难;推理分析不够严谨,过程不完整,结论基本(60-74)正确。对强化学习基础理论理解不正确,对主要概念存在显著误解;无法将数学和不及格算法思想应用于问题的建模和分析;推理分析错误较多,过程不完整,结论(0-59)错误。表3课程目标2评定标准等级评定标准优秀全面理解并熟练掌握Q学习、SARSA、策略梯度、深度强化学习等经典和最(90-新强化学习算法;能够独立选择和应用适当的算法解决复杂实际问题,展示100)出高度的创新性和有效性。较好理解并掌握Q学习、SARSA、策略梯度、深度强化学习等强化学习算法,良好能够正确应用:能够选择合适的算法解决实际问题,应用过程中表现出一定(75-89)的创新性。对Q学习、SARSA、策略梯度、深度强化学习等强化学习算法有基本理解,中掌握程度有限:能够尝试应用算法解决实际问题,但选择和应用过程中存在(60-74)定的错误或不当之处,创新性不足。不及格对Q学习、SARSA、策略梯度、深度强化学习等强化学习算法理解不够,应(0-59)用存在较大错误:无法有效选择和应用适当的算法解决实际问题,缺乏必要
平时成绩:30%。这部分成绩为形成性评价成绩,包括课后作业、随堂测验、 课堂表现等部分的成绩构成。 课程报告成绩:70%。本课程结课考查采用撰写课程报告的形式。 课程考核成绩评定如表 1 所示。 表 1 课程考核与成绩评定 课程目标 考核与评价方式及成绩占所在项的比例(约) 平时成绩 课程报告成绩 1 50% 30% 2 50% 70% 总成绩 平时总成绩×0.3+课程报告总成绩×0.7 2. 考核与评价标准 表 2 课程目标 1 评定标准 等级 评定标准 优 秀 (90- 100) 能准确阐述相关理论概念,清晰解释其数学原理和内在联系;能将数学和算 法思想融会贯通,创新性地应用于复杂智能决策问题的建模和分析;推理分 析严谨,过程完整,结论正确。 良好 (75-89) 对强化学习基础理论有较深入的理解,能正确说明主要概念和原理;能将数 学和算法思想有效地应用于智能决策问题的建模和分析;推理分析较为严 谨,过程较完整,结论正确。 中 (60-74) 对强化学习基础理论有基本的理解,能阐述主要概念;在应用数学和算法思 想解决问题时,存在一定困难;推理分析不够严谨,过程不完整,结论基本 正确。 不及格 (0-59) 对强化学习基础理论理解不正确,对主要概念存在显著误解;无法将数学和 算法思想应用于问题的建模和分析;推理分析错误较多,过程不完整,结论 错误。 表 3 课程目标 2 评定标准 等级 评定标准 优 秀 (90- 100) 全面理解并熟练掌握 Q 学习、SARSA、策略梯度、深度强化学习等经典和最 新强化学习算法;能够独立选择和应用适当的算法解决复杂实际问题,展示 出高度的创新性和有效性。 良好 (75-89) 较好理解并掌握 Q 学习、SARSA、策略梯度、深度强化学习等强化学习算法, 能够正确应用;能够选择合适的算法解决实际问题,应用过程中表现出一定 的创新性。 中 (60-74) 对 Q 学习、SARSA、策略梯度、深度强化学习等强化学习算法有基本理解, 掌握程度有限;能够尝试应用算法解决实际问题,但选择和应用过程中存在 一定的错误或不当之处,创新性不足。 不及格 (0-59) 对 Q 学习、SARSA、策略梯度、深度强化学习等强化学习算法理解不够,应 用存在较大错误;无法有效选择和应用适当的算法解决实际问题,缺乏必要
的创新性。八、教材与参考文献1)Richard S.Sutton,Andrew G.Barto,《Reinforcement Learning:Anlntroduction》第2版,MITPress,20o18年。:(英文原版)2)张文奇,姚永锟,赵明,《强化学习:原理与算法》,机械工业出版社,2020年7月。强化学习课程组2024年10月修订
的创新性。 八、教材与参考文献 1)Richard S. Sutton,Andrew G. Barto,《Reinforcement Learning: An Introduction》第 2 版,MIT Press,2018 年。(英文原版) 2)张文奇,姚永锟,赵明,《强化学习:原理与算法》,机械工业出版社,2020 年 7 月。 强化学习课程组 2024 年 10 月修订