Milestones 1998,Richard S.Sutton.Reinforcement Learning: An Introduction. ■ https://web.stanford.edu/class/psych209/Readings/ SuttonBartoIPRLBook2ndEd.pdf ▣ 2013,DON by DeepMind. ▣2017,AlphaGo 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 Milestones o 1998,Richard S. Sutton. Reinforcement Learning: An Introduction. n https://web.stanford.edu/class/psych209/Readings/ SuttonBartoIPRLBook2ndEd.pdf o 2013, DQN by DeepMind. o 2017, AlphaGo
强化学习的解决思路 5 智能体 A 动作 观测回报 新的状态S 环境 状态转移概率P(St+1lSt,a) 需要不断地与环境交互,获得反馈,学习最优动作 电子科技大学研究生《机器学》
电子科技大学研究生《机器学习》 强化学习的解决思路 12 需要不断地与环境交互,获得反馈,学习最优动作
Robot in a room 56 actions:UP,DOWN,LEFT,RIGHT +1 UP -1 80% move UP 10% move LEFT START 10% move RIGHT reward+1at[4,3],-1at[4,2] reward -0.04 for each step what's the strategy to achieve max reward? what if the actions were deterministic? 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 actions: UP, DOWN, LEFT, RIGHT UP 80% move UP 10% move LEFT 10% move RIGHT Robot in a room o reward +1 at [4,3], -1 at [4,2] o reward -0.04 for each step o what’s the strategy to achieve max reward? o what if the actions were deterministic? +1 -1 START
强化学习的解决思路 口从动态交互过程中学习 口人工智能的终极目标是通过感知进行决策 口涉及对象较多 ■动作、环境、奖励 ■状态转移概率、回报函数 口需要有效的解决框架 电子科技大学研究生《机器学》
电子科技大学研究生《机器学习1》4 o从动态交互过程中学习 o人工智能的终极目标是通过感知进行决策 o涉及对象较多 n 动作、环境、奖励 n 状态转移概率、回报函数 o需要有效的解决框架 强化学习的解决思路
内容提要 956 口RL解决的问题 ▣RL的基本原理 口RL的典型应用 口RL的发展趋势 电子科技大学研究生《机器学》
电子科技大学研究生《机器学习》 内容提要 15 oRL解决的问题 oRL的基本原理 oRL的典型应用 oRL的发展趋势