当前位置：和泉文库 > 数学 > 浏览文档

《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第16章离散状态的Markov控制与决策过程简介

文件格式：PDF，文件大小：74.05KB，售价：3元

文档详细内容（约10页）

439 龚光鲁, 钱敏平著应用随机过程教程 – 与在算法和智能计算中的应用清华大学出版社, 2003 第16章离散状态的Markov控制与决策过程简介 (Controlled Markov Process, Markov Decision Process, MDP) 1 例 1. 1 随机决策模型的简单例子定义１６.１随机决策模型的对象是可以控制的随机系统, 人们可以选取控制决策, 以改变发展过程的路径. 在任意固定时刻, 系统随机地处在 S = {1,2,L,N}中的某个状态, 而在策略取定为 a 的情况下系统的发展是按照一个随机矩阵 P (a) 作为转移概率阵而变化. 这就称为一个 Markov 决策过程．从下面的简单例子，可以得到一些直观的认识。例１６．２设某个经营系统总处在"1","2","3"三种状态之一．假定在每个整值时刻可选择两种不同的动作之一：a（1）或a（2），而在采取动作a（1）或a（2）时，状态间的转移矩阵分别为 P( (1) a )= ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ 2 1 0 2 1 2 1 2 1 0 0 2 1 2 1 , P( (2) a )= ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ 2 1 2 1 0 0 2 1 2 1 2 1 0 2 1 . 假定开始时（即时间n = 0时）该系统以相等的可能性处在这三个状态之一 , 即初始分布为 ÷ ø ö ç è æ 3 1 , 3 1 , 3 1 . 又设处在状态i 时, 采取动作 (1) a 能得到报酬为 g(i, a ) 2i (1) = , 而处在状态i 时, 采取动作 (2) a 能得到报酬为 2 1 ( , ) 2 g i a(2) = i + . 我们要在各个时刻, 根据历史状况,有目的地选取动作 (1) a 或 (2) a ,使在时间区段0 £ n £ m 内得到的平均累积报酬最大．这里，动作是历史状况的函数．从时刻 n 的历史状况到采取的动作的对应（即函数），称为时刻 n 采取的策略．各个时刻采取的策略合起来，称为一个策略．我们要选取一个策略，使在时间区段 0 £ n £ m 内得到的平均累积报酬最大．把在时刻 n 采取的动作记为 an , 那么它只能 (1) a 或 (2) a 之一. 于是转移矩阵 P(an ) ij n i j N p a = , £ ( ( )) 有确切的含义. 这样, 由初始分布 m0 =( m 1 , m 2 , m 3 )=( 3 1 , 3 1 , 3 1 ) 及转移矩阵列{ P(an )}决定了一个 3 个状态的非时齐的 Markov 链{ : n ³ 0} n x ． n x 代表系

442 而在n £1时段内的最高平均累积报酬为 12 125 ( , ) * 1 * V f 0 f = . 1. 2 简单模型的启示由例１６．２可以看出, 如果限制在形如 ( ) n n n a = f x 的策略类中, 去找最佳的策略 ( 即 ”从状态到动作的对应" n f ，那么, 只要先选定时刻最后的m 时刻所对应最佳的 * m f ，然后向后归纳地选最佳的 * 0 * 1 f , , f m - L . 由此可以抽象出第 2 节中较为一般的数学模型． 2 动作只依赖当前所处状态的简单决策模型 2. 1 简单模型的一般描述定义１６.３（决策动作不依赖系统的状态的情形）假定在参数a （a ∈某个有限集 A , 称为行动集）固定时, Ｐ(a ) ij i j N p a = , £ ( ( )) 是一个以 S = {1，2，L，N} 为状态空间的转移矩阵. 设在时刻 0,1,...各选一个行动，记为 , , ( ) a0 a1 L ai Î A , 那么由初分布m0 ( , , ) = m1 L m N 及转移矩阵序列{P(an ):n≥0} 可以决定一个非时齐的 Markov 链 n x ，满足： i P(x0 = i) = m , ( | ) ( ) n 1 n ij n P = j = i = p a + x x . 假定时刻 n 系统处在状态 i 时，采取行动 an 得到的报酬由报酬函数 g (i,a) n 表示,那么在时刻m 得到的累计报酬为 å= m n g n n an 0 (x , ) , 其中 g (i,a) n 是在时刻n 采取行动 a 且处在状态 i 时的报酬函数, 那么,平均累计报酬为 [ ( , )] 0 å= m n E g n x n an . 定义１６.４（决策动作仅依赖系统当前的状态的情形时的期望总报酬）这也是一种简单情形，例１６．３是它的特例．这时容许an 的取值依赖于链所处的状态i 的情形, 即 a f (i) n = n 的情形, 其中 n f 是状态集 S 到动作集的 A 的一个映射, 其含义为: 若 Markov 链在时刻n 处于状态i , 则采取决策a f (i) n = n ．令 P n ij n i j N p f i = , £ ( ( ( )) , （１６．１）则它仍是一个随机矩阵．由初始分布m0及{P n ,n≥0}决定了一个非时齐 Markov 链 n x ．类似地由报酬函数 g(i, a) 可以得到时刻m 的平均累计报酬．此 Markov 链 n x 在各个时刻的转移

443 矩阵是不同的，它们依赖初始分布m0及各个时刻的策略映射序列{ f n ³ 0} n，．我们记 f { f ,0 n m} = n £ £ D , （１６．２）并称它为一个策略．于是，使用它得到的平均累计报酬为 m０ E ÷ ø ö ç è æ å= m n n n n g f 0 (x , (x ) . 注意, 对于非时齐的 Markov 链 n x 的轨道 } 0 1 m （x ，x ，L，x 而言，我们采取的行动列为 { ( ), , ( )) 0 0 m m f x L f x . 由于我们的行动列只依赖于 Markov 链当前所处的状态, 这样的特殊策略 f { f f ( ),0 n m} = n = n * £ £ D 也称为 Markov 策略, 这时动作 ( ) n n n a = f x 是随机的. 在 Markov 链的初分布为m0时, 我们将 f 在时刻m 取得的平均累计报酬记为 J ( m0 ,f): J ( m0 ,f) = m０ E ÷ ø ö ç è æ å= m n n n n g f 0 (x , (x )) . （１６．３）在系统的初始状态为 i 时, 平均累计报酬为 J ( i ,f) = ÷ ø ö ç è æ å= m n i n n n E g f 0 (x , (x )) . (有时在总报酬中, 除了累计报酬外, 还要加上一个终止报酬 ( ) h m x , 此时 J ( m0 ,f) = m０ E ÷ ø ö ç è æ å + = m n n n n h n g f 0 (x , (x ) (x ) . 而其数学处理是完全一样的). [注 1] 以上考虑的是纯策略, 更为灵活的是使用混合策略, 也就是随机策略, 它以给定的概率分配取动作集 A 中的不同动作, 抽象地可以看成一个取值于 A 的概率向量(概率分布) m . 这时的动作集 A 就用取值于 A 的全体概率向量组成的集合(记成 P )所代替. 注意, 我们可以认为 A Ì P , 因为纯策略是一个特殊的随机策略. 在随机策略类P 中考虑累计报酬, 其每一步计算都应作相应的改变. 在使用随机策略时的最佳报酬函数相应地为 ( ) 0, × V m , 其中 D Vk,m (i) = p sup ÷ ø ö ç è æ å= m n k Ei gn n n (x ,p ) , （１６．４）而p p p p n ( , , ), = 0 1 L 表示时刻n 使用的随机策略．可以证明，当g (i,a) g(i,a) n = (不依赖n )时, Vk,n 关于k 满足一个 Bellman 型向后递推公式 ( ) 0 ( ) sup [ ( , ) ( ) ( )] , 1, 1 , = = + + = Î å V i V i g i a p a V j m m ij k m N j k m a A

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录