《数学建模》课程教学资源（教材讲义）第四章动态规划 dynamic programming.doc

第四章动态规划 §1引言 1.1动态规划的发展及研究内容动态规划( dynamic programming)是运筹学的一个分支,是求解多阶段决策问题的最优化方法。20世纪50年代初R.E. Bellman等人在研究多阶段决策过程 multistep decision process)的优化问题时,提出了著名的最优性原理( principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法一动态规划。1957年出版了他的名著《 Dynamic Programming》,这是该领域的第本著作。动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解应指出,动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是种特殊算法(如线性规划是一种算法)。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。因此,在学习时,除了要对基本概念和方法正确理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解例1最短路线问题下面是一个线路网,连线上的数字表示两点之间的距离(或费用)。试寻求一条由A 到G距离最短(或费用最省)的路线 ,Lc 例2生产计划问题工厂生产某种产品,每单位(千件)的成本为1(千元),每次开工的固定成本为3 (千元),工厂每季度的最大生产能力为6(千件)。经调查,市场对该产品的需求量第二、三、四季度分别为2,3,2,4(千件)。如果工厂在第一、二季度将全年的需求都生产出来,自然可以降低成本(少付固定成本费),但是对于第三、四季度才能上市的产品需付存储费,每季每千件的存储费为0.5(千元)。还规定年初和年末这种产品均无库存。试制定一个生产计划,即安排每个季度的产量,使一年的总费用(生产成本和存储费)最少 12决策过程的分类根据过程的时间变量是离散的还是连续的,分为离散时间决策过程( discrete-time decision process)和连续时间决策过程( continuous-time decision process);根据过程的演变是确定的还是随机的,分为确定性决策过程( deterministic decision process)和随

-35- 第四章动态规划 §1 引言 1.1 动态规划的发展及研究内容动态规划（dynamic programming）是运筹学的一个分支，是求解多阶段决策问题的最优化方法。20 世纪 50 年代初 R. E. Bellman 等人在研究多阶段决策过程(multistep decision process)的优化问题时，提出了著名的最优性原理（principle of optimality），把多阶段过程转化为一系列单阶段问题，逐个求解，创立了解决这类过程优化问题的新方法—动态规划。1957 年出版了他的名著《Dynamic Programming》，这是该领域的第一本著作。动态规划问世以来，在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题，用动态规划方法比用其它方法求解更为方便。虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题，但是一些与时间无关的静态规划（如线性规划、非线性规划），只要人为地引进时间因素，把它视为多阶段决策过程，也可以用动态规划方法方便地求解。应指出，动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种特殊算法（如线性规划是一种算法）。因而，它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体分析处理。因此，在学习时，除了要对基本概念和方法正确理解外，应以丰富的想象力去建立模型，用创造性的技巧去求解。例 1 最短路线问题下面是一个线路网，连线上的数字表示两点之间的距离（或费用）。试寻求一条由 A 到 G 距离最短（或费用最省）的路线。例 2 生产计划问题工厂生产某种产品，每单位（千件）的成本为 1（千元），每次开工的固定成本为 3 （千元），工厂每季度的最大生产能力为 6（千件）。经调查，市场对该产品的需求量第一、二、三、四季度分别为 2，3，2，4（千件）。如果工厂在第一、二季度将全年的需求都生产出来，自然可以降低成本（少付固定成本费），但是对于第三、四季度才能上市的产品需付存储费，每季每千件的存储费为 0.5（千元）。还规定年初和年末这种产品均无库存。试制定一个生产计划，即安排每个季度的产量，使一年的总费用（生产成本和存储费）最少。 1.2 决策过程的分类根据过程的时间变量是离散的还是连续的，分为离散时间决策过程（discrete-time decision process）和连续时间决策过程（continuous-time decision process）；根据过程的演变是确定的还是随机的，分为确定性决策过程（deterministic decision process）和随

机性决策过程( stochastic decision process),其中应用最广的是确定性多阶段决策过程。 §2基本概念、基本方程和计算方法 2.1动态规划的基本概念和基本方程个多阶段决策过程最优化问题的动态规划模型通常包含以下要素 2.1.1阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段,以便按阶段的次序解优化问题。阶段变量一般用k=1,2…,n表示。在例1中由A 出发为k=1,由B(=1,2)出发为k=2,依此下去从F(=1,2)出发为k=6,共 n=6个阶段。在例2中按照第一、二、三、四季度分为k=1,2,3,4,共四个阶段。 2.1.2状态状态( state)表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性,即当某阶段的状态变量给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量( state variable)。变量允许取值的范围称允许状态集合 ( set of admissible states)。用xk表示第k阶段的状态变量,它可以是一个数或一个向量用Xk表示第k阶段的允许状态集合。在例1中x2可取B2B2,或将B定义为 i(=1.2),则x2=1或2,而X2={,2} n个阶段的决策过程有n+1个状态变量,xn+表示xn演变的结果。在例1中x,取 G,或定义为1,即x2=1 根据过程演变的具体情况,状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态 2.1.3决策当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这种选择手段称为决策( decision),在最优控制问题中也称为控制( control)。描述决策的变量称决策变量( decision variable),变量允许取值的范围称允许决策集合( set of admissible decisions)。用lk(xk)表示第k阶段处于状态x时的决策变量, 它是xk的函数,用Uk(xk)表示xk的允许决策集合。在例1中2(B)可取C1,C2或C3, 可记作u2()=1,2,3,而U2(1)={12,3} 决策变量简称决策策略决策组成的序列称为策略( policy)。由初始状态x;开始的全过程的策略记作 P1n(x1),即 Pn(x1)={1(x1),u2(x2),…,ln(xn)} 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作Pn(xk),即 P(x)={u(x),…un(xn)},k=1,2,…,n-1 类似地,由第k到第j阶段的子过程的策略记作 P(xk)={4(xk)…,(x,) 可供选择的策略有一定的范围,称为允许策略集合( set of admissible policies),用

-36- 机性决策过程（stochastic decision process），其中应用最广的是确定性多阶段决策过程。 §2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。 2.1.1 阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段，以便按阶段的次序解优化问题。阶段变量一般用 k =1,2,  ,n 表示。在例 1 中由 A 出发为 k =1 ，由 B (i = 1,2) i 出发为 k = 2 ，依此下去从 F (i =1,2) i 出发为 k = 6 ，共 n = 6 个阶段。在例 2 中按照第一、二、三、四季度分为 k =1,2,3,4 ，共四个阶段。 2.1.2 状态状态（state）表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性，即当某阶段的状态变量给定时，这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量（state variable）。变量允许取值的范围称允许状态集合 (set of admissible states)。用 k x 表示第 k 阶段的状态变量，它可以是一个数或一个向量。用 Xk 表示第 k 阶段的允许状态集合。在例 1 中 2 x 可取 1 2 B ,B ，或将 Bi 定义为 i(i = 1,2) ，则 x2 =1 或 2 ，而 {1,2} X2 = 。 n 个阶段的决策过程有 n +1 个状态变量， n+1 x 表示 n x 演变的结果。在例 1 中 7 x 取 G ，或定义为 1 ，即 x7 = 1。根据过程演变的具体情况，状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化；为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态。 2.1.3 决策当一个阶段的状态确定后，可以作出各种选择从而演变到下一阶段的某个状态，这种选择手段称为决策（decision），在最优控制问题中也称为控制（control）。描述决策的变量称决策变量（decision variable），变量允许取值的范围称允许决策集合（set of admissible decisions）。用 ( ) k k u x 表示第 k 阶段处于状态 k x 时的决策变量，它是 k x 的函数，用 ( ) k k U x 表示 k x 的允许决策集合。在例 1 中 ( ) u2 B1 可取 1 2 C ,C 或 C3 ，可记作 u2 (1) =1,2,3 ，而 (1) {1,2,3} U2 = 。决策变量简称决策。 2.1.4 策略决策组成的序列称为策略（policy）。由初始状态 1 x 开始的全过程的策略记作 ( ) 1 1 p x n ，即 ( ) { ( ), ( ), , ( )} 1n 1 1 1 2 2 n n p x = u x u x  u x . 由第 k 阶段的状态 k x 开始到终止状态的后部子过程的策略记作 ( ) kn k p x ，即 ( ) { ( ), , ( )} kn k k k n n p x = u x  u x ， k = 1,2,  ,n −1. 类似地，由第 k 到第 j 阶段的子过程的策略记作 ( ) { ( ), , ( )} kj k k k j j p x = u x  u x . 可供选择的策略有一定的范围，称为允许策略集合(set of admissible policies)，用

-37- ( ), ( ), ( ) 1n 1 kn k kj k P x P x P x 表示。 2.1.5. 状态转移方程在确定性过程中，一旦某阶段的状态和决策为已知，下阶段的状态便完全确定。用状态转移方程（equation of state transition）表示这种演变规律，写作 ( , ), 1,2, , . xk +1 = Tk xk uk k =  n （1）在例 1 中状态转移方程为 ( ) k 1 k k x = u x + 。 2.1.6. 指标函数和最优值函数指标函数(objective function)是衡量过程优劣的数量指标，它是定义在全过程和所有后部子过程上的数量函数，用 ( , , , , ) kn k k k +1 n+1 V x u x  x 表示， k =1,2,  ,n 。指标函数应具有可分离性，即 Vkn 可表为 k uk Vk n x 1 , , + 的函数，记为 ( , , , , ) ( , , ( , , , )) kn k k k+1 n+1 = k k k k+1n k+1 k+1 k+2 n+1 V x u x  x  x u V x u x  x 并且函数  k 对于变量 Vk +1n 是严格单调的。过程在第 j 阶段的阶段指标取决于状态 j x 和决策 j u ，用 ( , ) j j u j v x 表示。指标函数由 v ( j 1,2, ,n) j =  组成，常见的形式有：阶段指标之和，即 = + + = n j k kn k k k n j j u j V (x ,u , x , , x ) v (x , ) 1  1 ，阶段指标之积，即 = + + = n j k kn k k k n j j u j V (x ,u , x , , x ) v (x , ) 1  1 ，阶段指标之极大（或极小），即 ( , , , , ) max(min) ( , ) 1 1 j j j k j n Vkn xk uk xk xn v x u   +  + = . 这些形式下第 k 到第 j 阶段子过程的指标函数为 ( , , , ) kj k k k+1 j+1 V x u x  x 。根据状态转移方程指标函数 Vkn 还可以表示为状态 k x 和策略 pkn 的函数，即 ( , ) kn k pkn V x 。在 k x 给定时指标函数 Vkn 对 pkn 的最优值称为最优值函数（optimal value function），记为 ( ) k k f x ，即 ( ) opt ( , ) ( ) kn k kn p P x f k xk V x p kn kn k = ，其中 opt 可根据具体情况取 max 或 min 。 2.1.7 最优策略和最优轨线使指标函数 Vkn 达到最优值的策略是从 k 开始的后部子过程的最优策略，记作 { , , } * * * pkn = uk  un 。 * 1n p 是全过程的最优策略，简称最优策略（optimal policy）。从初始状态 ( ) * 1 1 x = x 出发，过程按照 * 1n p 和状态转移方程演变所经历的状态序列 { , , , } * 1 * 2 * 1 n+ x x  x 称最优轨线（optimal trajectory）。 2.1.8 递归方程如下方程称为递归方程

-38-     =  = = + +  + + ( ) opt { ( , ) ( )}, , ,1 ( ) 0 1 1 1 ( ) 1 1 f x v x u f x k n  f x k k k k k u U x k k n n k k k 或（2）在上述方程中，当  为加法时取 f n+1 (xk +1 ) = 0 ；当  为乘法时，取 f n+1 (xk +1 ) =1。动态规划递归方程是动态规划的最优性原理的基础，即：最优策略的子策略，构成最优子策略。用状态转移方程（1）和递归方程（2）求解动态规划的过程，是由 k = n +1 逆推至 k =1 ，故这种解法称为逆序解法。当然，对某些动态规划问题，也可采用顺序解法。这时，状态转移方程和递归方程分别为： xk = Tk+1 (xk+1 ,uk+1 ), k = 1,  ,n ，     =  = = + + +  + + + + + f x v x u f x k n f x k k k k k u U x k k k k k ( ) opt { ( , ) ( )}, 1, , ( 0 1 1 1 1 ( ) 1 1 1 1 1 1 1  ）或纵上所述，如果一个问题能用动态规划方法求解，那么，我们可以按下列步骤，首先建立起动态规划的数学模型：（i）将过程划分成恰当的阶段。（ii）正确选择状态变量 k x ，使它既能描述过程的状态，又满足无后效性，同时确定允许状态集合 Xk 。（iii）选择决策变量 k u ，确定允许决策集合 ( ) k k U x 。（iv）写出状态转移方程。（v）确定阶段指标 ( , ) k k uk v x 及指标函数 Vkn 的形式（阶段指标之和，阶段指标之积，阶段指标之极大或极小等）。（vi）写出基本方程即最优值函数满足的递归方程，以及端点条件。 §3 逆序解法的计算框图以自由终端、固定始端、指标函数取和的形式的逆序解法为例给出计算框图，其它情况容易在这个基础上修改得到。一般化的自由终端条件为 1 1 1 1 ( ) ( ), 1,2, , n+ n+ i = n+ i = nn+ f x  x i  (3) 其中  为已知。固定始端条件可表示为 { } { } * 1 1 1 X = x = x 。如果状态 k x 和决策 k u 是连续变量，用数值方法求解时需按照精度要求进行离散化。设状态 k x 的允许集合为 Xk = {xki | i =1,2,  ,nk }, k =1,2,  ,n . 决策 ( ) ki ki u x 的允许集合为 U u j nki i nk k n j ki ki { | 1,2, , }, 1,2, , , 1,2, , = ( ) =  =  =  . 状态转移方程和阶段指标应对 k x 的每个取值 ki x 和 ki u 的每个取值 ( j) uki 计算，即 ( , ) ( j) k k ki uki T = T x ， ( , ) ( j) k ki uki v = v x 。最优值函数应对 k x 的每个取值 ki x 计算。基本方程可以表为

《数学建模》课程教学资源（教材讲义）第四章 动态规划 dynamic programming

《数学建模》课程教学资源（教材讲义）第四章动态规划 dynamic programming