RL的特点 5 Reinforcement learning solves a particular kind of problem where decision making is sequential,and the goal is long-term,such as game playing,robotics, resource management,or logistics. 从交互中进行,以目标为导向。 Agent不被告知采取哪个动作,而是通过尝试来发 现获得最大奖赏的动作。 agent必须尝试各种动作,并且渐渐趋近于那些表 现最好的动作,以达到目标。 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 RL的特点 o Reinforcement learning solves a particular kind of problem where decision making is sequential, and the goal is long-term, such as game playing, robotics, resource management, or logistics. o 从交互中进行,以目标为导向。 o Agent 不被告知采取哪个动作,而是通过尝试来发 现获得最大奖赏的动作。 o agent必须尝试各种动作,并且渐渐趋近于那些表 现最好的动作,以达到目标
例子 54 口一个机器人决定:1、进入一个新房间去寻找更 多垃圾,2、寻找一条回去充电的路。 ▣它根据以前找到充电器的快慢和难易程度来作决 定。这是以前与环境交互得到的经验 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 例子 o 一个机器人决定:1、进入一个新房间去寻找更 多垃圾,2、寻找一条回去充电的路。 o 它根据以前找到充电器的快慢和难易程度来作决 定。这是以前与环境交互得到的经验
RL的特点 智能体处在一个环境中,每个状态为智能体对当前 环境的感知;智能体只能通过动作来影响环境,当 智能体执行一个动作后,会使得环境按某种概率转 移到另一个状态;同时,环境会根据潜在的奖赏函 数反馈给智能体一个奖赏。 周志华《机器学习》 监督学习是从样例中学习,样例是由富有知识的外 部监督者提供的。这是一种重要的学习方法,但是 它不能单独地用于交互学习。 强化学习没有外部指导者,是在交互中,从自身经 验中学习。 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 RL的特点 o 智能体处在一个环境中,每个状态为智能体对当前 环境的感知;智能体只能通过动作来影响环境,当 智能体执行一个动作后,会使得环境按某种概率转 移到另一个状态;同时,环境会根据潜在的奖赏函 数反馈给智能体一个奖赏。 --- 周志华《机器学习》 o 监督学习是从样例中学习,样例是由富有知识的外 部监督者提供的。这是一种重要的学习方法,但是 它不能单独地用于交互学习。 o 强化学习没有外部指导者,是在交互中,从自身经 验中学习
RL的特点 /956 口机器如何做到? 口如何建立数学模型? 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 RL的特点 o 机器如何做到? o 如何建立数学模型?
RL model ·已知: -设机器人可感知到其环境的不同状态集合S,可执行的动作 集合A -在每个离散时间步t,机器人感知到当前状态$,选择当前 动作a,环境给出回报r=r(s,a),并产生后继状态s+=δ(S,a) -注意:回报函数和后继状态函数只依赖于当前状态和动作 ,这里先考虑它们为确定性的情形 state action At each step t the agent: Receives state st Receives scalar reward rt Executes action at The environment: Receives action at Emits state st Emits scalar reward re 艺生《机器学习》
电子科技大学研究生《机器学习》 RL model • 已知: ----设机器人可感知到其环境的不同状态集合S,可执行的动作 集合A ----在每个离散时间步t,机器人感知到当前状态st,选择当前 动作at,环境给出回报rt =r(st,at),并产生后继状态st+1=(st,at) -----注意:回报函数和后继状态函数只依赖于当前状态和动作 ,这里先考虑它们为确定性的情形