背景介绍 蒙特卡罗树搜索(Monte Carlo Tree Search) ·MCTS的一种经典实现:UCB算法 Q(w') 21n N(v) arg max u'∈children ofvN(u') +cy N() 其中v表示当前树节点,V表示父节点,Q表示这个树节点的 累计qualityf值,N表示这个树节点的visit)次数,C是一个常 量参数(可以控制exploitation和exploration权重)
背景介绍 蒙特卡罗树搜索(Monte Carlo Tree Search) • MCTS的一种经典实现:UCB算法 • 其中v'表示当前树节点,v表示父节点,Q表示这个树节点的 累计quality值,N表示这个树节点的visit次数,C是一个常 量参数(可以控制exploitation和exploration权重)
Motivation 然而,对于巨大的状态空间,MCTS值估计的准确率不能得 到有效保证,因为在有限的搜索时间内,平均值估计容易呈 现较高方差。这种不准确的估计会误导搜索树的构建方向, 从而严重影响算法的性能。 近期提出了几个新的机器学习算法,旨在解决MCTS的这 一缺点。例如,使用深度神经网络来学习域知识,并近似状 态值函数。它们与MCTS的结合为实践中提高搜索样本效 率带来了启发式算法
Motivation • 然而,对于巨大的状态空间,MCTS值估计的准确率不能得 到有效保证,因为在有限的搜索时间内,平均值估计容易呈 现较高方差。这种不准确的估计会误导搜索树的构建方向, 从而严重影响算法的性能。 • 近期提出了几个新的机器学习算法,旨在解决 MCTS 的这 一缺点。例如,使用深度神经网络来学习域知识,并近似状 态值函数。它们与 MCTS 的结合为实践中提高搜索样本效 率带来了启发式算法