动态规划的基本概念 4.策略(policy)和子策略(subpolicy): 策略:多阶段决策过程中,由各阶段决策组成的序列总 体称作一个策略(全过程策略)。 {X5,252l,X,5n 子过程策略或子策略:从过程的某一阶段开始到过程最 终阶段结束的决策序列,从k阶段起的子策略可以写为 {X5d,+k+.,X,5n人 最优策略(子策略):能使预期目标达到最优效果的策 略,记为Pn 2014-12-15 11
2014-12-15 11 4.策略(policy)和子策略(subpolicy): 策略:多阶段决策过程中,由各阶段决策组成的序列总 体称作一个策略(全过程策略)。 {x1 (s1 ), x2 (s2 ),., xn (sn )} 子过程策略或子策略:从过程的某一阶段开始到过程最 终阶段结束的决策序列,从k阶段起的子策略可以写为 {xk (sk ), xk+1 (sk+1 ),., xn (sn )} 最优策略(子策略):能使预期目标达到最优效果的策 略,记为 P*k,n 。 动态规划的基本概念
动态规划的基本概念 5.状态转移方程:从第阶段的状态5到第k+阶段的 状态Sk+的演变过程的解析表达式。记为: St=T(Sk2xx(Sk)) 或简写为 Sk=T(Sk2Xk) 2014-12-15 12
2014-12-15 12 5. 状态转移方程: 从第k阶段的状态sk到第k+1阶段的 状态s k+1的演变过程的解析表达式。记为: 1 ( , ( )) S T s x s k k k k 或简写为 1 ( , ) S T s x k k k 动态规划的基本概念
动态规划的基本概念 6指标函数 阶段的指标函数:用来衡量每一阶段决策效果优劣的数量指标。 ·阶段指标函数是状态变量和决策变量的函数,即V5XJ。 过程的指标函数:从第k阶段的状态S出发到过程的最后阶段结 束,当采取某种子策略时,按预定标准得到的效益值,称为过 程指标函数。 过程指标函数值取决于从第阶段到最后阶段所采取的子策略, 它是S和子策略的函数值。记作 Vn(Sk2S) 根据实际问题的性质,过程指标函数可以是各个阶段指标函 数的和或积。 2014-12-15 13
2014-12-15 13 6.指标函数 •阶段的指标函数:用来衡量每一阶段决策效果优劣的数量指标。 •阶段指标函数是状态变量和决策变量的函数,即vk (sk ,xk )。 •过程的指标函数:从第k阶段的状态sk 出发到过程的最后阶段结 束,当采取某种子策略时,按预定标准得到的效益值,称为过 程指标函数。 •过程指标函数值取决于从第k阶段到最后阶段所采取的子策略, 它是s k和子策略的函数值。记作 , 1 1 ( , , , ,., ) V s x s x s k n k k k k n 根据实际问题的性质,过程指标函数可以是各个阶段指标函 数的和或积。 动态规划的基本概念
动态规划的基本概念 最优指标函数:从状态S出发,选取最优子策略所得到 的指标函数值称为最优指标函数值,记作5/ f(Sk)=optVk.n(Sk,Xk,S,XK12Sn) Opt代表最优化,可以是min或max 决策x1(S) 决策x2(S2) 决策x(5。 状态s 阶段1 状态s2 阶段2 状态s。 阶段n T(SL,x1) T(S2,x2) T(Sx) ↓ Vi(S1,x1) V2(S2,X2) Vn(SnXn) 2014-12-15
2014-12-15 14 最优指标函数:从状态sk出发,选取最优子策略所得到 的指标函数值称为最优指标函数值,记作fk (sk ). , 1 1 ( ) ( , , , ,., ) k k k n k k k k n f s optV s x s x s Opt代表最优化,可以是min或max 状态s1 决策x1 (s1 ) 阶段1 T(S1,x1) 状态s2 阶段2 T(S2,x2) 决策x2 (s2 ) 阶段n T(Sn,xn) 状态sn 决策xn (sn ) v1 (s1 ,x1 ) v2 (s2 ,x2 ) vn (sn ,xn ) 动态规划的基本概念