电子科技大学研究生《机器学习》精品课程 第18讲强化学习 Reinforcement Learning 郝家胜(Jiasheng Hao) Ph.D.,Associate Professor Email:hao@uestc.edu.cn School of Automation Engineering,Center for Robotics University of Electronic Science and Technology of China,Chengdu 611731 Awg.2015第一稿;M.2021第四稿
电子科技大学研究生《机器学习》精品课程 Email: hao@uestc.edu.cn School of Automation Engineering, Center for Robotics University of Electronic Science and Technology of China, Chengdu 611731 郝家胜 (Jiasheng Hao) Ph.D., Associate Professor Aug. 2015 第一稿;May. 2021第四稿 第18讲 强化学习 Reinforcement Learning
Previous Lectures 956 ▣Supervised learning ■ classification,regression ■CNN ■RNN Unsupervised learning clustering,KNN ■ dimensionality reduction ■DNN ■GAN 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 Previous Lectures oSupervised learning n classification, regression n CNN n RNN oUnsupervised learning n clustering, KNN n dimensionality reduction n DNN n GAN
Challenges More 例 摆杆 A66 中国国棋协会和断体育同联合谷微共同宣布: 将在5月23日到5月27日举行四瓶峰会 A1市1aG0此次与特洁对痒仅有三局比赛 分别于5月23、25、27日班行 X AlphaGo 柯洁 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 Challenges More 3
Another Method Supervised learning classification,regression ■ CNN ■ RNN Unsupervised learning clustering,KNN ■ dimensionality reduction DNN ■ GAN ▣ Reinforcement learning (RL) environment reward action new state agent 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 Another Method o Supervised learning n classification, regression n CNN n RNN o Unsupervised learning n clustering, KNN n dimensionality reduction n DNN n GAN o Reinforcement learning(RL) environment agent action reward new state
Why RL 口2017年,打败人类围棋冠军 ▣ 强化学习与其他工程和科学学科的实质性和富有成 效的交互,它与统计学、最优化和其他数学学科、 心理学等更紧密地结合在一起 在所有形式的机器学习中,强化学习最接近人类和 其他动物所做的学习,而强化学习的许多核心算法 最初都受到生物学习系统的启发 ▣ 强化学习也在某种程度上符合人工智能回归简单的 一般性原则的大趋势 电子科技大学研究生《机器学习》
电子科技大学研究生《机器学习》 Why RL o 2017年,打败人类围棋冠军 o 强化学习与其他工程和科学学科的实质性和富有成 效的交互,它与统计学、最优化和其他数学学科、 心理学等更紧密地结合在一起 o 在所有形式的机器学习中,强化学习最接近人类和 其他动物所做的学习,而强化学习的许多核心算法 最初都受到生物学习系统的启发 o 强化学习也在某种程度上符合人工智能回归简单的 一般性原则的大趋势