2)状态 状态(state)表示每个阶段开始时过程所处的自然状况。它应该能 够描述过程的特征并且具有无后向性,即当某阶段的状态给定时,这 个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态 都是过去历史的一个完整总结。通常还要求状态是直接或间接可以观 测的。 描述状态的变量称状态变量(state variable)。变量允许取值的范 围称允许状态集合(set of admissible states)。用xk表示第k阶段的 状态变量,它可以是一个数或一个向量。用X表示第k阶段的允许状 态集合。 状态变量简称为状态 2023/4/28
2023/4/28 2) 状态 状态(state)表示每个阶段开始时过程所处的自然状况。它应该能 够描述过程的特征并且具有无后向性,即当某阶段的状态给定时,这 个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态 都是过去历史的一个完整总结。通常还要求状态是直接或间接可以观 测的。 描述状态的变量称状态变量(state variable)。变量允许取值的范 围称允许状态集合(set of admissible states)。用xk表示第k阶段的 状态变量,它可以是一个数或一个向量。用Xk表示第k阶段的允许状 态集合。 状态变量简称为状态
3)决策 当一个阶段的状态确定后,可以作出各种选择从 而演变到下一阶段的某个状态,这种选择手段称为决 策(decision)。 描述决策的变量称决策变量(decision variable)。 变量允许取值的范围称允许决策集合(set of admissible decisions)。用uk(xk)表示第k阶段处于 状态xk时的决策变量,它是xk的函数,用Uk(Xk)表示 了Xk的允许决策集合。 决策变量简称决策。 2023/4/28
2023/4/28 3)决策 当一个阶段的状态确定后,可以作出各种选择从 而演变到下一阶段的某个状态,这种选择手段称为决 策(decision) 。 描述决策的变量称决策变量(decision variable)。 变量允许取值的范围称允许决策集合(set of admissible decisions)。用uk (xk )表示第k阶段处于 状态xk时的决策变量,它是xk的函数,用Uk (xk )表示 了xk的允许决策集合。 决策变量简称决策
4)策略 决策组成的序列称为策略(policy)。由初始状态x开始的全 过程的策略记作p1.n(x1),即p1,nX1)={u仪),u2X2),, un(Xn}。 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作 Pk,nXk),即pk,n(Xk)={uk(Xk),uk+1(Xk+1),un(Xn}。类似地, 由第k到第阶段的子过程的策略记作 Pk.j(Xk)={uk(XK),uk+1(Xk+1),...,uj(Xj)}o 对于每一个阶段k的某一给定的状态xk,可供选择的策略 Pk.(Xx)有一定的范围,称为允许策略集合(set of admissible policies). ZUZJI+I∠U
2023/4/28 4)策略 决策组成的序列称为策略(policy)。由初始状态x1开始的全 过程的策略记作p1,n(x1),即p1,n(x1)={u1 (x1 ), u2 (x2 ),...,un (xn )}。 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作 pk,n(xk ),即pk,n(xk )={uk (xk ),uk+1(xk+1),...,un (xn )}。类似地, 由第k到第j阶段的子过程的策略记作 pk,j(xk )={uk (xk ),uk+1(xk+1),...,uj (xj )}。 对于每一个阶段k的某一给定的状态xk,可供选择的策略 pk,j(xk )有一定的范围,称为允许策略集合(set of admissible policies)
5)状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知, 下阶段的状态便完全确定。用状态转移方程(equation of state)表示这种演变规律,写作 4=I(,4z(》,k=1,2,,2 1) 2023/4/28
2023/4/28 5) 状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知, 下阶段的状态便完全确定。用状态转移方程(equation of state)表示这种演变规律,写作
6)指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数 量指标,它是关于策略的数量函数,从阶段k到阶段n的 指标函数用Vk,n(Xk,Pkn(Xk)表示,k=1,2,,n。 能够用动态规划解决的问题的指标函数应具有可分 离性,即Vkn可表为Xk,uk,Vk+1,n的函数,记为: 7n(,4,H,",附)=9(,4,Hn区Hp,H》 (2) 2023/4/28
2023/4/28 6) 指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数 量指标,它是关于策略的数量函数,从阶段k到阶段n的 指标函数用Vk,n(xk ,pk,n(xk ))表示,k=1,2,...,n。 能够用动态规划解决的问题的指标函数应具有可分 离性,即Vk,n可表为xk ,uk ,Vk+1, n 的函数,记为: