(4)策略和允许策略集合策略(Policy)也叫决策序列.策略有全过程策略和k部子策略之分,全过程策略是指具有n个阶段的全部过程,由依次进行的n个阶段决策构成的决策序列,简称策略,表示为pin(uj,uz,,un}。从k阶段到第n阶段,依次进行的阶段决策构成的决策序列称为k部子策略,表示为Pk.n(uk,uk+1,",un),显然当k-1时的k部子策略就是全过程策略
(4)策略和允许策略集合 策略(Policy)也叫决策序列.策略有全过程 策略和 k 部子策略之分,全过程策略是指具 有n 个阶段的全部过程,由依次进行的n 个 阶段决策构成的决策序列,简称策略,表示 为 。从 k 阶段到第 n 阶段, 依次进行的阶段决策构成的决策序列称为 k 部子策略,表示为 ,显然当 k=1时的k 部子策略就是全过程策略。 { , , , } 1,n 1 2 n p u u u { , , , } k ,n k k 1 n p u u u +
(5)状态转移方程状态转移确定从一个状态到另一个状态的转移过程,由状态转移方程描述:Sk+1= T (Sk,u);状态转移方程在大多数情况下可以由数学公式表达,如:Sk+1=Sk+uk
(5) 状态转移方程 状态转移确定从一个状态到另一个状态的转 移过程, 由状态转移方程描述: sk+1 = T (sk , uk ); 状态转移方程在大多数情况下可以由数学公 式表达, 如: sk+1 = sk + uk;
(6)指标函数用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用,等等
(6) 指标函数 用来衡量策略或子策略或决策的效果的 某种数量指标,就称为指标函数。它是定义 在全过程或各子过程或各阶段上的确定数量 函数。对不同问题,指标函数可以是诸如费 用、成本、产值、利润、产量、耗量、距离、 时间、效用,等等
(1)阝阶段指标函数(也称阶段效应)用gk(Sk,u)表示第k段处于状态s且所作决策为u,时的指标,则它就是第k段指标函数,简记为gk。(也称目标函数)(2)过程指标函数用Rk(sk,uk)表示第k子过程的指标函数。表示处于第 k 段 Sk状态且所作决策为uk时,从 Sk点到终点的距离。由此可见,Rk(Sk,uk)不仅跟当前状态Sk有关,还跟
用gk (sk , uk )表示第 k 段处于状态 sk且 所作决策为 uk 时的指标,则它就是第 k 段指标函数,简记为gk 。 用RK(sk , uk)表示第k子过程的指标函数。 表示处于第 k 段 sk 状态且所作决策为uk 时,从 sk 点到终点的距离。由此可见, RK(sk , uk)不仅跟当前状态 sk 有关,还跟 (2)过程指标函数(也称目标函数) (1)阶段指标函数(也称阶段效应)
还跟该子过程策略pk(s)有关,严格说来,应表示为 R;(Sk,Pk(sr)。它是由各阶段的阶段指标函数gk(Sk,u)累积形成的,对于k部子过程的指标函数可以表示为:Rk.n = Rk.n (Sk,uk,Sk+1,uk+1,*,Sn,un)= gk(Sk, uk)@gk+i(Sk+1, Uuk+1)@...@gn(Sn, un)式中④,表示某种运算,可以是加、减、乘、除、开方等
还跟该子过程策略pk (sk )有关,严格说来,应 表示为 Rk (sk , pk (sk )) 。它是由各阶段的阶段 指标函数 gk (sk , uk )累积形成的,对于k 部子 过程的指标函数可以表示为: g (s ,u ) g (s ,u ) g (s ,u ) R R (s ,u ,s ,u , ,s ,u ) k k k k 1 k 1 k 1 n n n k,n k,n k k k 1 k 1 n n = = + + + + + 式中,表示某种运算,可以是加、减、 乘、除、开方等.