2.动变规划的基本概 三)决策、决策变量和允许决策 集合 决策的实质是关于状态的选择,是决 策者从给定阶段状态出发对下一阶段状 态作出的选择。 用以描述决策变化的量称之决策变量。 决策变量的值可以用数,向量、其它量 也可以是状态变量的函数,记以u uk(5),表示于阶段k状态Sk时的决策 变量
(三)决策、决策变量和允许决策 集合 决策的实质是关于状态的选择,是决 策者从给定阶段状态出发对下一阶段状 态作出的选择。 用以描述决策变化的量称之决策变量。 决策变量的值可以用数,向量、其它量, 也可以是状态变量的函数,记以uk= uk (sk ),表示于阶段k状态sk时的决策 变量。 2.动态规划的基本概念
2.动恋规划的基本概念 决策变量的取值往往也有一定 的允许范围,称之允许决策集合。 决策变量uA5)的允许决策集用 U(5)表示, uk(S)∈Us 允许决策集合实际是决策的约 束条件
27 2.动态规划的基本概念 决策变量的取值往往也有一定 的允许范围,称之允许决策集合。 决策变量uk (sk )的允许决策集用 Uk (sk )表示, uk (sk )∈ Uk (sk ) 允许决策集合实际是决策的约 束条件
2.动恋规划的基本概A 四)策略和允许策略集合 策略( Policy)也叫决策序列.策略有 全过程策略和部子策略之分,全过程 策略是指由依次进行的n个阶段决策 构成的决策序列,简称策略,表示为 P un}。从k阶段到第n阶段 依次进行的阶段决策构成的决策序列 称为k部子策略,表示为 显然当k=1时的k 部子策略就是全过程策略
28 (四)策略和允许策略集合 策略(Policy)也叫决策序列.策略有 全过程策略和k部子策略之分,全过程 策略是指由依次进行的n个阶段决策 构成的决策序列,简称策略,表示为 p1,n {u1 ,u2 ,…,un }。从k阶段到第n阶段, 依次进行的阶段决策构成的决策序列 称 为 k 部 子 策 略 , 表 示 为 pk,n{uk ,uk+1 ,…,un } ,显然当k=1时的k 部子策略就是全过程策略。 2.动态规划的基本概念
2.歌变规划的基本概念 在实际问题中,由于在各个阶 段可供选择的决策有许多个, 因吡,它们的不同组合就构成 了许多可供选择的决策序列(策 略),由它们组成的集合,称之 允许策略集合,记作P1n,从 允许策略集中,找出具有最优 效果的策略称为最优策略
29 2.动态规划的基本概念 在实际问题中,由于在各个阶 段可供选择的决策有许多个, 因此,它们的不同组合就构成 了许多可供选择的决策序列(策 略),由它们组成的集合,称之 允许策略集合,记作P1,n ,从 允许策略集中,找出具有最优 效果的策略称为最优策略
2.动变规划的基本概A (五)状态转移方程 系統在阶段k处于状态Sk 执行决敢l1(1的结果是系统状 v的掩稳即系由阶k的初 始状态Sk转移到终止状态Sk+1
30 (五)状态转移方程 系统在阶段k处于状态sk, 执行决策uk (sk )的结果是系统状 态的转移,即系统由阶段k的初 始状态sk转移到终止状态sk+1 。 2.动态规划的基本概念