内容提要 956 口RL解决的问题 ▣RL的基本原理 口RL的典型应用 ▣RL的发展趋势 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 内容提要 6 oRL解决的问题 oRL的基本原理 oRL的典型应用 oRL的发展趋势
强化学习解决的问题 50 appllod force nmediate roward Bppled force immed rial 20,Ta6.2 sc al #20.Ta6.2 sec nmed白e reward l20.T-6. 治●g0wng:564< l0p00nc0:56. tl#20Ta620 lotal total experience:5 图A非线性系统二级倒立摆 柯洁KEJE 柯洁KEJ川E 柯洁KEJE 柯洁KEJE 02:58:39 02:36:52 01:29:49 00:59:58 ALPHAGO ALPHAGO ALPHAGO ALPHAGO 02:57:48 02:49:07 02:28:13 02:15:01 需要连续不断地做出决策,才能实现最终目标 图B AlphaGo与柯洁第二盘棋 图C机器人学习站立 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 强化学习解决的问题 7 需要连续不断地做出决策,才能实现最终目标
自主学习 分析一下动物自主学习的特点: 1、试错:尝试不同的做法(动作) 2、强化:有好处多做,没有好处少做 3、目标:是动物努力的方向,目标导向 动物(学习者)必须尝试各种动作,并且渐渐趋 近于那些表现最好的动作,以达到目标。 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 自主学习 分析一下动物自主学习的特点: 1、试错:尝试不同的做法(动作) 2、强化:有好处多做,没有好处少做 3、目标:是动物努力的方向,目标导向 动物(学习者)必须尝试各种动作,并且渐渐趋 近于那些表现最好的动作,以达到目标
例子 956 口走到电梯门口,发现等电梯的人很多 口选择:1等电梯;2走下去 口根据经验来选择,是强化学习 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 例子 o 走到电梯门口,发现等电梯的人很多 o 选择:1等电梯;2走下去 o 根据经验来选择,是强化学习
多臂老虎机问题 Multi-armed Bandits (MAB)problems $ 摇臂 K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可随机选择 其中一个臂摇下,每个摇臂以一定的概率吐出银币(也就是赌 徒的奖赏),但每个臂获得硬币的概率赌徒并不知道。赌徒的 目标是通过一定的策略来最大化自己的累计奖赏,即在有限的 摇臂次数下,尽可能多的获得银币奖赏。 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 多臂老虎机问题 o Multi-armed Bandits (MAB)problems K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可随机选择 其中一个臂摇下,每个摇臂以一定的概率吐出银币(也就是赌 徒的奖赏),但每个臂获得硬币的概率赌徒并不知道。赌徒的 目标是通过一定的策略来最大化自己的累计奖赏,即在有限的 摇臂次数下,尽可能多的获得银币奖赏