阶段效益函数:S,执行决策X时,不仅带来 系统状态的转移,也必然要影响决策目标, 对应这个决策的效果值,叫做效益函数,记 为rk(sk,xk)
6 阶段效益函数:sk,执行决策xk时,不仅带来 系统状态的转移,也必然要影响决策目标, 对应这个决策的效果值,叫做效益函数,记 为 rk( sk,xk )
效益函数:多阶段决策过程关于目标的总效益,在 “无后效性”的条件下,由各阶段效益累计而成。 k, Xk SK+1, xk+ 'n, Xn k=1, 即k子系统的效益。 ⊙表示某种运算(+,-,*等)
7 效益函数:多阶段决策过程关于目标的总效益,在 “无后效性”的条件下,由各阶段效益累计而成。 Rk= rk( sk,xk )⊙ rk+1( sk+1,xk+1 ) ⊙… ⊙ rn( sn,xn ) k=1,…,n 即k子系统的效益。 ⊙表示某种运算(+,-,*等)
当k=1时,R*表示总目标效益函数的最优值。 R*=r1(S1,X1*)⊙r2(S 2,^2 ⊙rn(Sn,xn*) (x1*,2*,…,x)称为最优策略 fk(sk) =optik(sk, Xk) o k+1 (Sk+1 k+1 @ ⊙rn(sn,xn*)} fk(sk):由第k阶段的状态s到终点的最优效益值。 当k=1,且s1唯一时,R*=千1(S1 8
8 当k=1时,R*表示总目标效益函数的最优值。 R*=r1(s1,x1 *) ⊙ r2(s2,x2 *) ⊙ … ⊙ rn(sn,xn *) ( x1 * , x2 * ,…, xn *)称为最优策略 fk(sk)=opt{rk(sk,xk *) ⊙ rk+1(sk+1,xk+1 *) ⊙ …⊙ rn(sn,xn *)} fk(sk):由第k阶段的状态sk到终点的最优效益值。 当k=1,且s1唯一时,R*=f1(s1)
当⊙为“+”时, fk(sk) =opt(k(sk, Xk*)+ Ik+(sp k+1 Xx+1 +…+「n(Sn,Xn*)} 尔曼函数
9 当⊙为“+”时, fk(sk)=opt{rk(sk,xk *) + rk+1(sk+1,xk+1 *) + …+ rn(sn,xn *)} -----贝尔曼函数
最优化原理:若(X1*,…,xn*)是初始状态 s1S1的最优策略,则其一部分 (xk*,Xk+1*,…,xn*)1≤k≤n对于它的初始状 态sES而言也构成一个最优策略,或称: 最优策略的任何一部分子策略也是相应初始 状态的最优策略 证明(反证法) 10
10 最优化原理:若( x1 * , …, xn *)是初始状态 s1 є S1的最优策略,则其一部分 (xk * ,xk+1 * ,…,xn *)1≤k≤n对于它的初始状 态sk є Sk而言也构成一个最优策略,或称: 最优策略的任何一部分子策略也是相应初始 状态的最优策略。 证明(反证法)