当前位置：和泉文库 > 计算机 > 浏览文档

中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning

背景 MDPs 强化学习问题蒙特卡洛方法 (Monte Carlo Methods) 蒙特卡洛预测（Monte Carlo Prediction）蒙特卡洛控制（Monte Carlo Control）时序差分学习 (Temporal-Difference Learning) 时序差分预测（TD Prediction）时序差分控制（TD Control） Sarsa：on-policy Q-learning : off-policy 策略梯度 (Policy Gradient) Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning

文件格式：PDF，文件大小：3.33MB，售价：21.5元

文档详细内容（约99页）

Reinforcement Learning 吉建民 USTC jianminOustc.edu.cn 2021年6月11日 4口◆4⊙t1三1=，￥9QC

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reinforcement Learning 吉建民 USTC jianmin@ustc.edu.cn 2021 年 6 月 11 日

Used Materials Disclaimer:本课件采用了Rich Sutton's RL class,David Silver's Deep RL tutorial和其他网络课程课件，也采用了GitHub中开源代码，以及部分网络博客内容 4口◆4⊙t1三1=，￥9QC

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Used Materials Disclaimer: 本课件采用了 Rich Sutton’s RL class, David Silver’s Deep RL tutorial 和其他网络课程课件，也采用了 GitHub 中开源代码，以及部分网络博客内容

Table of Contents 背景 MDPs 强化学习问题蒙特卡洛方法(Monte Carlo Methods 蒙特卡洛预测(Monte Carlo Prediction) 蒙特卡洛控制(Monte Carlo Control) 时序差分学习(Temporal-Difference Learning 时序差分预测(TD Prediction 时序差分控制(TD Control) Sarsa:on-policy Q-learning off-policy 策略梯度(Policy Gradient Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning 4口卡404三·1=生0C

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table of Contents 背景 MDPs 强化学习问题蒙特卡洛方法 (Monte Carlo Methods) 蒙特卡洛预测（Monte Carlo Prediction）蒙特卡洛控制（Monte Carlo Control）时序差分学习 (Temporal-Difference Learning) 时序差分预测（TD Prediction）时序差分控制（TD Control） Sarsa：on-policy Q-learning : off-policy 策略梯度 (Policy Gradient) Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning

Markov Decision Processes MDP模型是一个四元组(S,A,T,R) Markov Property:P(s:+1 51,...,st)=P(st+1 st) ·Tsa,s)=P(s|s,a ~Policy:T:S×A→[0,1]，T(a|s) ·已知MDP模型 ~Prediction::给定MDP和policy,计算值函数Vn或Qn -Control::给定MDP,计算最优策略π*或最优值函数V*或 Q* 019 0.4 05 06 人 4口◆4⊙t1三1=，￥9QC

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Markov Decision Processes ▶ MDP 模型是一个四元组 ⟨S, A,T, R⟩ ▶ Markov Property: P(st+1 | s1, . . . ,st) = P(st+1 | st) ▶ T(s, a,s ′ ) = P(s ′ | s, a) ▶ Policy: π : S × A → [0, 1], π(a | s) ▶ 已知 MDP 模型 ▶ Prediction: 给定 MDP 和 policy π，计算值函数 Vπ 或 Qπ ▶ Control: 给定 MDP，计算最优策略 π ∗ 或最优值函数 V ∗ 或 Q∗

State-Value Function and Action-Value Function ~回报(return):回报Gt是从时刻t开始的总折扣奖励： 00 G=R+1+R+2+…=∑)R+k1 k=1 ~状态值函数(state-value function):状态值函数V.(s是从状态s出发，按照策略π采取行为得到的期望回报： Vx(s=Eπ(Gt|St=s) =E(Rt+1+7Gt+1St=s) =E(Rt+1+YV(St+1)ISt=s) 行动值函数(action-value function,action-state-value function):行为值函数Qπ(s,a)是从状态s出发，采取行为 a后，然后按照策略π采取行为得到的期望回报： Q(s,a)=E (Gt St=s,At=a) =ET(Rt+1+yQr(St+1,At+1)St=s,At=a) 4口卡404三·1怎生0C

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . State-Value Function and Action-Value Function ▶ 回报（return）：回报 Gt 是从时刻 t 开始的总折扣奖励： Gt = Rt+1 + γRt+2 + · · · = ∑∞ k=1 γ kRt+k+1 ▶ 状态值函数（state-value function）：状态值函数 Vπ(s) 是从状态 s 出发，按照策略 π 采取行为得到的期望回报： Vπ(s) = Eπ (Gt | St = s) = Eπ (Rt+1 + γGt+1 | St = s) = Eπ (Rt+1 + γVπ(St+1) | St = s) ▶ 行动值函数（action-value function, action-state-value function）：行为值函数 Qπ(s, a) 是从状态 s 出发，采取行为 a 后，然后按照策略 π 采取行为得到的期望回报： Qπ(s, a) = Eπ (Gt | St = s, At = a) = Eπ (Rt+1 + γQπ(St+1, At+1) | St = s, At = a)

点击进入文档下载页（PDF格式）

共99页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 13 神经网络与深度学习
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 09 AI Planning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 08 First-Order Logic and Inference in FOL
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 11 马尔可夫决策过程
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 10 Uncertainty and Bayesian Networks
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 07 Logical Agents
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 06 Game Playing
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 05 Constraint Satisfaction Problems
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 04 Informed Search
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 03 Solving Problems by Searching
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 02 Intelligent Agents
《Artificial Intelligence：A Modern Approach》教学资源（PPT课件，英文版）Chapter 9-Inference in first-order logic
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录