●● 2)状态 状态( state表示每个阶段开始时过程所处的自然状况。它应该能 够描述过程的特征并且具有无后向性,即当某阶段的状态给定时,这 个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态 都是过去历史的一个完整总结。通常还要求状态是直接或间接可以观 测的。 描述状态的变量称状态变量 state variable)。变量允许取值的范 围称允许状态集合( set of admissible states)。用x表示第k阶段的 状态变量,它可以是一个数或一个向量。用X表示第k阶段的允许状 态集合。 状态变量简称为状态 2021/28
2021/2/8 2) 状态 状态(state)表示每个阶段开始时过程所处的自然状况。它应该能 够描述过程的特征并且具有无后向性,即当某阶段的状态给定时,这 个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态 都是过去历史的一个完整总结。通常还要求状态是直接或间接可以观 测的。 描述状态的变量称状态变量(state variable)。变量允许取值的范 围称允许状态集合(set of admissible states)。用xk表示第k阶段的 状态变量,它可以是一个数或一个向量。用Xk表示第k阶段的允许状 态集合。 状态变量简称为状态
●●●●● ●●●● 3)决策 ●●0 ●●● ●●●● 当一个阶段的状态确定后,可以作出各种选择从 而演变到下一阶段的某个状态,这种选择手段称为决 策( decision)。 描述决策的变量称决策变量( decision variable) 变量允许取值的范围称允许决策集合( set of admissible decisions)。用u(x)表示第k阶段处于 状态x时的决策变量,它是xk的函数,用Ukx表示 了ⅹk的允许决策集合。 决策变量简称决策 2021/2/8
2021/2/8 3)决策 当一个阶段的状态确定后,可以作出各种选择从 而演变到下一阶段的某个状态,这种选择手段称为决 策(decision) 。 描述决策的变量称决策变量(decision variable)。 变量允许取值的范围称允许决策集合(set of admissible decisions)。用uk (xk )表示第k阶段处于 状态xk时的决策变量,它是xk的函数,用Uk (xk )表示 了xk的允许决策集合。 决策变量简称决策
●●● 4)策略 决策组成的序列称为策略( policy)。由初始状态x开始的全 过程的策略记作p1n(x1),即p1n(x1)={u1(x+),u2x2)…,un1(xn} 由第k阶段的状态ⅹ开始到终止状态的后部子过程的策略记作 pknx,即pn(x)={u(x),uk+1(xk+小…,un(xn}。类似地, 由第k到第阶段的子过程的策略记作 pk(x)={ukx),uk+1(xk+1),…,可x丹 对于每一个阶段k的某一给定的状态xk,可供选择的策略 pk(x)有一定的范围,称为允许策略集合( set of admissible policies)
2021/2/8 4)策略 决策组成的序列称为策略(policy)。由初始状态x1开始的全 过程的策略记作p1,n(x1),即p1,n(x1)={u1 (x1 ), u2 (x2 ),...,un (xn )}。 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作 pk,n(xk ),即pk,n(xk )={uk (xk ),uk+1(xk+1),...,un (xn )}。类似地, 由第k到第j阶段的子过程的策略记作 pk,j(xk )={uk (xk ),uk+1(xk+1),...,uj (xj )}。 对于每一个阶段k的某一给定的状态xk,可供选择的策略 pk,j(xk )有一定的范围,称为允许策略集合(set of admissible policies)
●●●●● ●●●● 5)状态转移方程 ●●0 ●●●● 在确定性过程中,一旦某阶段的状态和决策为已知,° 下阶段的状态便完全确定。用状态转移方程( equation of state表示这种演变规律,写作 x=7(x,41(x),=12,…,n() 2021/28
2021/2/8 5) 状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知, 下阶段的状态便完全确定。用状态转移方程(equation of state)表示这种演变规律,写作
●●●●● ●●●● 6)指标函数和最优值函数 ●●0 ●● 指标函数( objective function)是衡量过程优劣的数 量指标,它是关于策略的数量函数,从阶段k到阶段n的 指标函数用Vkn(xk,pkn(x)表示,k=1,2,…,n。 能够用动态规划解决的问题的指标函数应具有可分 离性,即Vn可表为xk,ukVk+,n的函数,记为: V, (x k242k+,m人÷, k:2k5k1n(k+152n+ 2021/28
2021/2/8 6) 指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数 量指标,它是关于策略的数量函数,从阶段k到阶段n的 指标函数用Vk,n(xk ,pk,n(xk ))表示,k=1,2,...,n。 能够用动态规划解决的问题的指标函数应具有可分 离性,即Vk,n可表为xk ,uk ,Vk+1, n 的函数,记为: