图示如下:uSS3k+1121能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即具有无后效性的多阶段决策过程。5、无后效性或马尔可夫性如果某阶段状态给定后,则在这个阶段以后过程的发展不受这个阶段以前各阶段状态的影响;过程的过去历史只能通过当前的状态去影响它未来的发展
1 2 k s1 u1 s2 u2 s3 sk uk sk+1 能用动态规划方法求解的多阶段决策过程是一 类特殊的多阶段决策过程,即具有无后效性的多阶 段决策过程。 图示如下: 5、无后效性或马尔可夫性 如果某阶段状态给定后,则在这个阶段以后过程 的发展不受这个阶段以前各阶段状态的影响;过程的 过去历史只能通过当前的状态去影响它未来的发展
构造动态规划模型时,要充分注意状态变量是否满足无后效性的要求:O状态转移方程?状态具有无后效性的多阶段决策过程的状态转移方程如下:S2=Ti(S1, ur)S3=T2(S2, u2)Sk+1=Tk(Sk, uk)
构造动态规划模型时,要充分注意状态变量是否 满足无后效性的要求; 状态转移方程? 状态具有无后效性的多阶段决策过程的状态转 移方程如下: s2 =T1 (s1 , u1 ) s3 =T2 (s2 , u2 ) sk+1 =Tk (sk , uk )
6、策略按顺序排列的决策组成的集合。由过程的第k终止状态为止的过程,称为问题的(k子过程)。后部子过程由每段的决策按顺序排列组成的决策函数序列称为k子过程策略。简称6C121E1D1283B1子策略,记为pkn(sh),5F1C2即,5E2GD248C33B26F22Pkn(sr)=(ur(sh),uk+1(Sk+1))E36D3836[un(sn))4C432456
A B1 B2 C1 C2 C3 C4 D1 D2 D3 E1 E2 E3 F1 F2 G 4 5 3 1 3 6 8 7 6 6 8 3 5 3 3 8 2 2 1 2 3 3 3 5 5 2 6 6 4 3 1 2 3 4 5 6 由每段的决策按顺序排列组成的决策函数序列称 为 k 子过程策略。简称 子策略,记为pk,n (sk ), 即, Pk,n (sk )={uk (sk ),uk+1(sk+1), ,un (sn )} C1 D1 E1 F1 G 6、策略 按顺序排列的决策组成的集合。 由过程的第k 终止状态为止的过程,称为问题的 后部子过程(k 子过程)
当k=1时,此决策函数序列成为全过程的一个策略,简称策略,记为pln(s),即Pin(si)={ui(si), uz(s2), ... 允许策略集合,可供选辩的策略范围,用P表示。最优策略,达到最优效果的策略。6C12ED128B135F1C25E2GD2T8C33B26F2E36D38364C423456
A B1 B2 C1 C2 C3 C4 D1 D2 D3 E1 E2 E3 F1 F2 G 4 5 3 1 3 6 8 7 6 6 8 3 5 3 3 8 2 2 1 2 3 3 3 5 5 2 6 6 4 3 1 2 3 4 5 6 允许策略集合,可供选择的策略范围,用 P 表示。 最优策略,达到最优效果的策略。 当 k =1时,此决策函数序列成为全过程的一个策 略,简称策略,记为p1,n (s1 ),即 P1,n (s1 )={u1 (s1 ), u2 (s2 ), . , un (sn )} A B1 C1 D1 E1 F1 G
指标函数和最优值函数指标函数,用来衡量所实现过程优劣的一种数量指标,它是定义在全过程或所有后部子过程上确定的数量函数。用 Vk,表示。Vk. n= Vk.n (Sk, uk, Sk+1, uk+1, sn+1), k =1,2, n动态规划模型6C12EI?D18的指标函数,应具3B15F1C2有可分离性,并满453E2D28C3足递推关系。3B2F2?E36D3836即Vkn可以表示为 Sk44Ur,Vk+1, n的函数。234-56
7、指标函数和最优值函数 指标函数,用来衡量所实现过程优劣的一种数量 指标,它是定义在全过程或所有后部子过程上确定 的数量函数。用 Vk, n 表示。 Vk, n= Vk, n (sk , uk ,sk+1, uk+1 , , sn+1 ), k =1,2, ,n A B1 B2 C1 C2 C3 C4 D1 D2 D3 E1 E2 E3 F1 F2 G 4 5 3 1 3 6 8 7 6 6 8 3 5 3 3 8 2 2 1 2 3 3 3 5 5 2 6 6 4 3 1 2 3 4 5 6 动态规划模型 的指标函数,应具 有可分离性,并满 足递推关系。 即Vk, n可以表示为 sk , uk ,Vk+1, n 的函数