动态规划
1 动态规划
基本概念 多阶段决策问题: 此问题系统的动态过程可以按照时间的 进程分为若干个相互联系的阶段,而在每 个阶段中,具有一个或多个状态,在每一个 阶段中都要针对每一个状态作出决策。这样 在各阶段的决策确定以后,就顺序构成一个 决策序列,称为一个策略
2 基本概念 多阶段决策问题: 此问题系统的动态过程可以按照时间的 进程分为若干个相互联系的阶段,而在每一 个阶段中,具有一个或多个状态,在每一个 阶段中都要针对每一个状态作出决策。这样, 在各阶段的决策确定以后,就顺序构成一个 决策序列,称为一个策略
阶段和阶段变量:阶段是按照总决策进行的时间或空 间的先后顺序来划分,用K表示,K为阶段变量 状态和状态变量:状态描述系统所处的状态或位置 阶段状态应具有“无后效性”,即过程的历史只能 通过当前的状态去影响它的未来,每一阶段(k) 状态分为初始状态(S)和终止状态(Sk+1),前 阶段的终止状态是后一阶段的初始状态 状态可能集Sk,ScSk
3 阶段和阶段变量:阶段是按照总决策进行的时间或空 间的先后顺序来划分,用K表示,K为阶段变量。 状态和状态变量:状态描述系统所处的状态或位置。 阶段状态应具有“无后效性”,即过程的历史只能 通过当前的状态去影响它的未来,每一阶段(k ) 状态分为初始状态(sk)和终止状态(sk+1),前一 阶段的终止状态是后一阶段的初始状态。 状态可能集 Sk, skєSk
决策变量和策略:ⅹ表示第k阶段的决策。 决策变量序列称为策略 全过程策略(X1,…,Xn 子策略(Xm,Xm+1
4 决策变量和策略:xk表示第k阶段的决策。 决策变量序列称为策略 全过程策略 (x1,...,xn) 子策略 (xm,xm+1,...,xn)
状态转移方程:把过程由一个状态变到另一个 状态的变化叫做状态转移。 sk,选择决策ⅹ(S)的产生的结果,便转移 到sk+1,记为sk+=Tk(sk,xk) 若Tk(Sk 0,则称s为终止状态
5 状态转移方程:把过程由一个状态变到另一个 状态的变化叫做状态转移。 sk,选择决策xk(sk)的产生的结果,便转移 到sk+1,记为sk+1=Tk(sk,xk) 若Tk(sk,xk)=0,则称sk为终止状态