Reinforcement Learning 吉建民 USTC jianminOustc.edu.cn 2021年6月11日 4口◆4⊙t1三1=,¥9QC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reinforcement Learning 吉建民 USTC jianmin@ustc.edu.cn 2021 年 6 月 11 日
Used Materials Disclaimer:本课件采用了Rich Sutton's RL class,David Silver's Deep RL tutorial和其他网络课程课件,也采用了GitHub中开源 代码,以及部分网络博客内容 4口◆4⊙t1三1=,¥9QC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Used Materials Disclaimer: 本课件采用了 Rich Sutton’s RL class, David Silver’s Deep RL tutorial 和其他网络课程课件,也采用了 GitHub 中开源 代码,以及部分网络博客内容
Table of Contents 背景 MDPs 强化学习问题 蒙特卡洛方法(Monte Carlo Methods 蒙特卡洛预测(Monte Carlo Prediction) 蒙特卡洛控制(Monte Carlo Control) 时序差分学习(Temporal-Difference Learning 时序差分预测(TD Prediction 时序差分控制(TD Control) Sarsa:on-policy Q-learning off-policy 策略梯度(Policy Gradient Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning 4口卡404三·1=生0C
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table of Contents 背景 MDPs 强化学习问题 蒙特卡洛方法 (Monte Carlo Methods) 蒙特卡洛预测(Monte Carlo Prediction) 蒙特卡洛控制(Monte Carlo Control) 时序差分学习 (Temporal-Difference Learning) 时序差分预测(TD Prediction) 时序差分控制(TD Control) Sarsa:on-policy Q-learning : off-policy 策略梯度 (Policy Gradient) Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning
Markov Decision Processes MDP模型是一个四元组(S,A,T,R) Markov Property:P(s:+1 51,...,st)=P(st+1 st) ·Tsa,s)=P(s|s,a ~Policy:T:S×A→[0,1],T(a|s) ·已知MDP模型 ~Prediction::给定MDP和policy,计算值函数Vn或Qn -Control::给定MDP,计算最优策略π*或最优值函数V*或 Q* 019 0.4 05 06 人 4口◆4⊙t1三1=,¥9QC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Markov Decision Processes ▶ MDP 模型是一个四元组 ⟨S, A,T, R⟩ ▶ Markov Property: P(st+1 | s1, . . . ,st) = P(st+1 | st) ▶ T(s, a,s ′ ) = P(s ′ | s, a) ▶ Policy: π : S × A → [0, 1], π(a | s) ▶ 已知 MDP 模型 ▶ Prediction: 给定 MDP 和 policy π,计算值函数 Vπ 或 Qπ ▶ Control: 给定 MDP,计算最优策略 π ∗ 或最优值函数 V ∗ 或 Q∗
State-Value Function and Action-Value Function ~回报(return):回报Gt是从时刻t开始的总折扣奖励: 00 G=R+1+R+2+…=∑)R+k1 k=1 ~状态值函数(state-value function):状态值函数V.(s是从 状态s出发,按照策略π采取行为得到的期望回报: Vx(s=Eπ(Gt|St=s) =E(Rt+1+7Gt+1St=s) =E(Rt+1+YV(St+1)ISt=s) 行动值函数(action-value function,action-state-value function):行为值函数Qπ(s,a)是从状态s出发,采取行为 a后,然后按照策略π采取行为得到的期望回报: Q(s,a)=E (Gt St=s,At=a) =ET(Rt+1+yQr(St+1,At+1)St=s,At=a) 4口卡404三·1怎生0C
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . State-Value Function and Action-Value Function ▶ 回报(return):回报 Gt 是从时刻 t 开始的总折扣奖励: Gt = Rt+1 + γRt+2 + · · · = ∑∞ k=1 γ kRt+k+1 ▶ 状态值函数(state-value function):状态值函数 Vπ(s) 是从 状态 s 出发,按照策略 π 采取行为得到的期望回报: Vπ(s) = Eπ (Gt | St = s) = Eπ (Rt+1 + γGt+1 | St = s) = Eπ (Rt+1 + γVπ(St+1) | St = s) ▶ 行动值函数(action-value function, action-state-value function):行为值函数 Qπ(s, a) 是从状态 s 出发,采取行为 a 后,然后按照策略 π 采取行为得到的期望回报: Qπ(s, a) = Eπ (Gt | St = s, At = a) = Eπ (Rt+1 + γQπ(St+1, At+1) | St = s, At = a)