2动恋规划的基本概A (三)决策、决簟变量和允许决琅梟合 所谓决策,就是确定系统过程发展的方案。 决策的实质是关于状态的选择,是决策者从给定 阶段状态岀发对下一阶段状态作出的选择。 用以描述决策变化的量称之决策变量和状 态变量一样,决策变量可以用一个数.一组数或 向量來描述,也可以是状态变量的函数,记以 l=u(s),表示于阶段k状态S时的决策变量。 决策变量的取值往往也有一定的允许范围 称之允许决策集合。决策变量l1(S)的允许决策 集用(S)表示,l(S)∈(S允许决策集合 实际是决策的约束条件
27 (三)决策、决策变量和允许决策集合 所谓决策,就是确定系统过程发展的方案。 决策的实质是关于状态的选择,是决策者从给定 阶段状态出发对下一阶段状态作出的选择。 用以描述决策变化的量称之决策变量和状 态变量一样,决策变量可以用一个数,一组数或 一向量来描述,也可以是状态变量的函数,记以 uk= uk(sk),表示于阶段k状态sk时的决策变量。 决策变量的取值往往也有一定的允许范围, 称之允许决策集合。决策变量uk(sk)的允许决策 集用Uk(sk)表示, uk(sk)∈ Uk(sk)允许决策集合 实际是决策的约束条件。 2.动态规划的基本概念
2动恋规划的基本概A (四)、略和允许簟略集合 策略( Policy)也叫决策序列.策略有全过程 策略和k部子策略之分,全过程策略是指具有n个 阶段的全部过程,由依次进行的m阶段决策构 成的决策序列,简称策略表示为 n{1,v,,ω}。从阶段到第l阶段,依次进行 的阶段决策构成的决策序列称为k部子策略,表示 为Dn{lnU1,…,Un},显然当k1时的k部子策略 就是全过程策略。 在实际问题中,由于在各个阶段可供选择的决策 有许多个,因此,它们的不同组合就构成了许多 可供选择的决策序列(策略),由它们组成的集合, 称之允许策略集合,记作B、n,从允许策略集中, 找岀具有最优效果的策略称汋最优策略
28 (四)、策略和允许策略集合 策略(Policy)也叫决策序列.策略有全过程 策略和k部子策略之分,全过程策略是指具有n个 阶段的全部过程,由依次进行的n个阶段决策构 成 的 决 策 序 列 , 简 称 策 略 , 表 示 为 p1,n{u1,u2,…,un}。从k阶段到第n阶段,依次进行 的阶段决策构成的决策序列称为k部子策略,表示 为pk,n{uk,uk+1,…,un} ,显然当k=1时的k部子策略 就是全过程策略。 在实际问题中,由于在各个阶段可供选择的决策 有许多个,因此,它们的不同组合就构成了许多 可供选择的决策序列(策略),由它们组成的集合, 称之允许策略集合,记作P1,n ,从允许策略集中, 找出具有最优效果的策略称为最优策略。 2.动态规划的基本概念
2动恋规划的基本概A (五)状态转移方程 系统在阶段k处于状态5,执行决策lk(S2 的结果是系统状态的转移,即系统由阶段k的初 始状态Sk转移到终止状态Sk1,或者说,系统由 k阶段的状态转移到了阶段什1的状态SA1,多 阶段决策过程的发展就是用阶段状恋的相继演变 来描述的。 对于具有无后效性的多阶段决策过程,系统 由阶段k到阶段k1的状态转移完全由阶段k的状 态S和决策l(S)所确定,与系统过去的状态 及其决策1(S1),l2(S2).l1(Sk1 无关。系统状态的这种转移,用数学公式描述即 有 SkI=IK(,u(sk)) 5-1)
29 (五)状态转移方程 系统在阶段k处于状态sk,执行决策uk(sk) 的结果是系统状态的转移,即系统由阶段k的初 始状态sk转移到终止状态sk+1 ,或者说,系统由 k阶段的状态sk转移到了阶段k+1的状态sk+1 ,多 阶段决策过程的发展就是用阶段状态的相继演变 来描述的。 对于具有无后效性的多阶段决策过程,系统 由阶段k到阶段k+1的状态转移完全由阶段k的状 态sk和决策uk(sk)所确定,与系统过去的状态 s1,s2,… ,sk-1及其决策u1(s1), u2(s2)…uk-1(sk-1) 无关。系统状态的这种转移,用数学公式描述即 有: 2.动态规划的基本概念 ( , ( )) k 1 k k k k s = T s u s + (5-1)
合2.动变规划的基本概A 通常称式(51)为多阶段决策过程的状态转移方 程。有些问题的状态转移方程不一定存在数学 表达式,但是它们的状态转移,还是有一定规 律可循的。 (大)指标函数 用來衡量策略或子策略或决策的效果的某 种数量指标,就称为指标函数。它是定义在全 过程或各子过程或各阶段上的确定数量函数, 对不同问题,指标函数可以是诸如费用、成本 产值、利润、产量、耗量、距离、时间、效用 等等。例如:图5-1的指标就是运费
30 通常称式(5-1)为多阶段决策过程的状态转移方 程。有些问题的状态转移方程不一定存在数学 表达式,但是它们的状态转移,还是有一定规 律可循的。 (六) 指标函数 用来衡量策略或子策略或决策的效果的某 种数量指标,就称为指标函数。它是定义在全 过程或各子过程或各阶段上的确定数量函数。 对不同问题,指标函数可以是诸如费用、成本、 产值、利润、产量、耗量、距离、时间、效用, 等等。例如:图5—1的指标就是运费。 2.动态规划的基本概念
2.动恋规划的基本概 (1)阶段指标函数(也称阶段效应)。用 8(S,u)表示第k段处于S状态且所作决策为 lk(S)时的指标,则它就是第k段指标函数,简记 为8k。图5-1的g值就是从状态S到状态Sh1的距 离。譬如,8(V2,V)=3,即v到的距离为3 (2)过程指标函数(也称目标函数)。用 R4(sh表示第k子过程的指标函数。如图5-1的 R(s,D表示处于第k段S状态且所作决策为1时, 从S点到终点0的距离。由此可见,R(su)不 仅跟当前状态S有关,还跟该子过程策略p(S2 有关,因此它是S和p(S)的函数,严格说来, 应表示为: R(S Sk, p(k))
31 (1)阶段指标函数(也称阶段效应)。用 gk(sk,uk)表示第k段处于sk状态且所作决策为 uk(sk)时的指标,则它就是第k段指标函数,简记 为gk 。图5-1的gk值就是从状态sk到状态sk+1的距 离。譬如,gk(v2,v5)=3,即v2到v5的距离为3。 (2)过程指标函数(也称目标函数)。用 Rk(sk,uk)表示第k子过程的指标函数。如图5-1的 Rk(sk,uk)表示处于第k段sk状态且所作决策为uk时, 从sk点到终点v10的距离。由此可见,Rk(sk,uk)不 仅跟当前状态sk有关,还跟该子过程策略pk(sk) 有关,因此它是sk和pk(sk)的函数,严格说来, 应表示为: 2.动态规划的基本概念 ( , ( )) k k k k R s p s