动态规划的发展及研究内容.pdf

-56- 第四章第四章动态规划动态规划 1 引言 1.1 动态规划的发展及研究内容动态规划（dynamic programming）是运筹学的一个分支，是求解决策过程（decision process）最优化的数学方法。20 世纪 50 年代初 R. E. Bellman 等人在研究多阶段决策过程multistep decision process的优化问题时，提出了著名的最优性原理（principle of optimality），把多阶段过程转化为一系列单阶段问题，逐个求解，创立了解决这类过程优化问题的新方法动态规划。1957 年出版了他的名著Dynamic Programming ，这是该领域的第一本著作。动态规划问世以来，在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题，用动态规划方法比用其它方法求解更为方便。虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题，但是一些与时间无关的静态规划（如线性规划、非线性规划），只要人为地引进时间因素，把它视为多阶段决策过程，也可以用动态规划方法方便地求解。应指出，动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种特殊算法（如线性规划是一种算法）。因而，它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体分析处理。因此，在学习时，除了要对基本概念和方法正确理解外，应以丰富的想象力去建立模型，用创造性的技巧去求解。例 1 最短路线问题图 1 是一个线路网，连线上的数字表示两点之间的距离（或费用）。试寻求一条由A 到G距离最短（或费用最省）的路线。图 1 最短路线问题例 2 生产计划问题工厂生产某种产品，每单位（千件）的成本为 1（千元），每次开工的固定成本为 3 （千元），工厂每季度的最大生产能力为 6（千件）。经调查，市场对该产品的需求量第一、二、三、四季度分别为 2，3，2，4（千件）。如果工厂在第一、二季度将全年的需求都生产出来，自然可以降低成本（少付固定成本费），但是对于第三、四季度才能上市的产品需付存储费，每季每千件的存储费为 0.5（千元）。还规定年初和年末这种产品均无库存。试制定一个生产计划，即安排每个季度的产量，使一年的总费用（生产成本和存储费）最少。 1.2 决策过程的分类根据过程的时间变量是离散的还是连续的，分为离散时间决策过程（discrete-time -57- decision process）和连续时间决策过程（continuous-time decision process）；根据过程的演变是确定的还是随机的，分为确定性决策过程（deterministic decision process）和随机性决策过程（stochastic decision process），其中应用最广的是确定性多阶段决策过程。 2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。 2.1.1 阶段阶段step是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段，以便按阶段的次序解优化问题。阶段变量一般用nk,, 2 , 1L表示。在例 1 中由A 出发为1k，由2 , 1 iBi出发为2k，依此下去从2 , 1 iFi出发为6k，共 6n个阶段。在例 2 中按照第一、二、三、四季度分为4 , 3 , 2 , 1k，共四个阶段。 2.1.2 状态状态（state）表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性，即当某阶段的状态变量给定时，这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量（state variable）。变量允许取值的范围称允许状态集合 set of admissible states。用 k x表示第k阶段的状态变量，它可以是一个数或一个向量。用 k X表示第k阶段的允许状态集合。在例 1 中 2 x可取 21,B B，或将 i B定义为 2 , 1 ii，则1 2 x或2，而}2 , 1{ 2 X。 n 个阶段的决策过程有1n个状态变量， 1n x表示 n x演变的结果。在例 1 中 7 x取 G，或定义为1，即1 7 x。根据过程演变的具体情况，状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化；为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态。 2.1.3 决策当一个阶段的状态确定后，可以作出各种选择从而演变到下一阶段的某个状态，这种选择手段称为决策（decision），在最优控制问题中也称为控制（control）。描述决策的变量称决策变量（decision variable），变量允许取值的范围称允许决策集合（set of admissible decisions）。用 kk xu表示第k阶段处于状态 k x时的决策变量，它是 k x的函数，用 kk xU表示 k x的允许决策集合。在例 1 中 12 Bu可取 21,C C或 3 C，可记作3 , 2 , 1 1 2 u，而}3 , 2 , 1{ 1 2 U。决策变量简称决策。 2.1.4 策略决策组成的序列称为策略（policy）。由初始状态 1 x开始的全过程的策略记作 11 xp n ，即 },,,{ 221111nnn xuxuxuxpL. 由第k阶段的状态 k x开始到终止状态的后部子过程的策略记作 kkn xp，即 },,{ nnkkkkn xuxuxpL，1,, 2 , 1−nkL. 类似地，由第k到第j阶段的子过程的策略记作 -58- },,{ jjkkkkj xuxuxpL. 可供选择的策略有一定的范围，称为允许策略集合set of admissible policies，用 ,, 11kkjkknn xPxPxP表示。 2.1.5. 状态转移方程在确定性过程中，一旦某阶段的状态和决策为已知，下阶段的状态便完全确定。用状态转移方程（equation of state transition）表示这种演变规律，写作 .,, 2 , 1,, 1 nkuxTx kkkk L （1）在例 1 中状态转移方程为 1kkk xux 。 2.1.6. 指标函数和最优值函数指标函数objective function是衡量过程优劣的数量指标，它是定义在全过程和所有后部子过程上的数量函数，用,,,, 11,nkkknk xxuxVL表示，nk,, 2 , 1L。指标函数应具有可分离性，即 nk V , 可表为 nkkk Vux , 1 ,, 的函数，记为 ,,,,,,,,, 111, 111, nkknkkkknkkknk xuxVuxxxuxVLLϕ 并且函数 k ϕ对于变量 nk V , 1 是严格单调的。过程在第j阶段的阶段指标取决于状态 j x和决策 j u，用, jjj uxv表示。指标函数由,, 2 , 1njvjL组成，常见的形式有阶段指标之和，即 ∑ n kj jjjnkkknk uxvxxuxV,,,,, 11, L，阶段指标之积，即 ∏ n kj jjjnkkknk uxvxxuxV,,,,, 11, L，阶段指标之极大（或极小），即 ,minmax,,,, 11,jjj njk nkkknk uxvxxuxV ≤≤ L. 这些形式下第k到第j阶段子过程的指标函数为,,, 1,jkkjk xuxVL。根据状态转移方程指标函数 nk V , 还可以表示为状态 k x和策略 kn p的函数，即 , ,knknk pxV。在 k x给定时指标函数 nk V , 对 kn p的最优值称为最优值函数（optimal value function），记为 kk xf，即 ,opt , knknk xPp kk pxVxf kknkn∈ ，其中opt可根据具体情况取max或min。 2.1.7 最优策略和最优轨线使指标函数 nk V , 达到最优值的策略是从k开始的后部子过程的最优策略，记作 },,{ *** nkkn uupL。 * 1n p是全过程的最优策略，简称最优策略（optimal policy）。从初始状态 * 11 xx 出发，过程按照 * 1n p和状态转移方程演变所经历的状态序列 },,,{ * 1 * 2 * 1n xxxL称最优轨线（optimal trajectory）。 -59- 2.1.8 递归方程如下方程称为递归方程 ⎪ ⎩ ⎪ ⎨ ⎧ ⊗ ∈ 1 ,,},,{opt 10 11 11 Lnkxfuxvxf xf kkkkk xUu kk nn kkk 或（2）在上述方程中，当⊗为加法时取0 11 nn xf；当⊗为乘法时，取1 11 nn xf。动态规划递归方程是动态规划的最优性原理的基础，即最优策略的子策略，构成最优子策略。用状态转移方程（1）和递归方程（2）求解动态规划的过程，是由1 nk逆推至1k，故这种解法称为逆序解法。当然，对某些动态规划问题，也可采用顺序解法。这时，状态转移方程和递归方程分别为 nkuxTx kk r kk ,, 1,, 1 L ， ⎪ ⎩ ⎪ ⎨ ⎧ ⊗ − ∈ nkxfuxvxf xf kkkkk xUu kk k r kk ,, 1},,{opt 10 11 1 10 11 L 或）例 3 用 lingo 求解例 1 最短路线问题。 model Title Dynamic Programming; sets vertex/A,B1,B2,C1,C2,C3,C4,D1,D2,D3,E1,E2,E3,F1,F2,G/L; roadvertex,vertex/A B1,A B2,B1 C1,B1 C2,B1 c3,B2 C2,B2 C3,B2 C4, C1 D1,C1 D2,C2 D1,C2 D2,C3 D2,C3 D3,C4 D2,C4 D3, D1 E1,D1 E2,D2 E2,D2 E3,D3 E2,D3 E3, E1 F1,E1 F2,E2 F1,E2 F2,E3 F1,E3 F2,F1 G,F2 G/D; endsets data D5 3 1 3 6 8 7 6 6 8 3 5 3 3 8 4 2 2 1 2 3 3 3 5 5 2 6 6 4 3; L0,,,,,,,,,,,,,,,; enddata forvertexi|iGT1Liminroadj,iLjDj,i; end 纵上所述，如果一个问题能用动态规划方法求解，那么，我们可以按下列步骤，首先建立起动态规划的数学模型（i）将过程划分成恰当的阶段。（ii）正确选择状态变量 k x，使它既能描述过程的状态，又满足无后效性，同时确定允许状态集合 k X。（iii）选择决策变量 k u，确定允许决策集合 kk xU。（iv）写出状态转移方程。（v）确定阶段指标, kkk uxv及指标函数 kn V的形式（阶段指标之和，阶段指标之积，阶段指标之极大或极小等）。（vi）写出基本方程即最优值函数满足的递归方程，以及端点条件。 3 逆序解法的计算框图 -60- 以自由终端、固定始端、指标函数取和的形式的逆序解法为例给出计算框图，其它情况容易在这个基础上修改得到。一般化的自由终端条件为 1, 1, 11 ,, 2 , 1, nininn nixxfLϕ 3 其中ϕ为已知。固定始端条件可表示为}{}{ * 111 xxX。如果状态 k x和决策 k u是连续变量，用数值方法求解时需按照精度要求进行离散化。设状态 k x的允许集合为 nkninixX kkkik ,, 2 , 1,,, 2 , 1},,, 2 , 1|{LLL. 决策 kiki xu的允许集合为 nkninjuU kki j kiki ,, 2 , 1,,, 2 , 1},,, 2 , 1|{ LLL. 状态转移方程和阶段指标应对 k x的每个取值 ki x和 ki u的每个取值 j ki u计算，即 , j kikikk uxTT ，, j kikik uxvv 。最优值函数应对 k x的每个取值 ki x计算。基本方程可以表为 . 1 , 2 ,,,,, 2 , 1,,, 2 , 1 ,opt ,,, 1 LLLnkninj xfxf uxTfuxvxf kki ki j k j kik j kikikk j kikikki j k （4）图 2 解法框图 -61- 按照（3），（4）逆向计算出 * 11 xf，为全过程的最优值。记状态 ki x的最优决策为 * kiki xu，由 * 1 x和 * kiki xu按照状态转移方程计算出最优状态，记作 * k x。并得到相应的最优决策，记作 ** kk xu。于是最优策略为},,,{ *** 2 * 2 * 1 * 1nn xuxuxuL。算法程序的框图如图 2 所示。图的左边部分是函数序列的递推计算，可输出全过程最优值 * 11 xf，如果需要还可以输出后部子过程最优值函数序列 kik xf和最优决策序列 * kik xu。计算过程中存 kik xf是备计算 1−k f之用，在 1−k f算完后可用 1−k f将 k f替换掉；存 * kik xu是备右边部分读 ** kk xu之用。图的右边部分是最优状态和最优决策序列的正向计算，可输出最优策略 },,,{ *** 2 * 2 * 1 * 1nn xuxuxuL和最优轨线},,,{ ** 2 * 1n xxxL。 4 动态规划与静态规划的关系动态规划与静态规划（线性和非线性规划等）研究的对象本质上都是在若干约束条件下的函数极值问题。两种规划在很多情况下原则上可以相互转换。动态规划可以看作求决策 n uuu,,, 21 L使指标函数,,, 2111nn uuuxVL，达到最优（最大或最小）的极值问题，状态转移方程、端点条件以及允许状态集、允许决策集等是约束条件，原则上可以用非线性规划方法求解。一些静态规划只要适当引入阶段变量、状态、决策等就可以用动态规划方法求解。下面用例子说明。例 4 用动态规划解下列非线性规划 ∑ n k kk ug 1 max； s.t. ∑ ≥ n k kk uau 1 0,. 其中 kk ug为任意的已知函数。解按变量 k u的序号划分阶段，看作n段决策过程。设状态为 121 ,,, n xxxL，取问题中的变量 n uuu,,, 21 L为决策。状态转移方程为 .,, 2 , 1,, 11 nkuxxax kkk L− 取 kk ug为阶段指标，最优值函数的基本方程为（注意到0 1 n x） ][max 11 0 ≤≤ kkkk xu kk xfxgxf kk ； 1 , 2 ,, 1,,0L−≤≤nnkaxk； 00 1 n f. 按照逆序解法求出对应于 k x每个取值的最优决策 * kk xu，计算至 1 af后即可利用状态转移方程得到最优状态序列}{ * k x和最优决策序列}{ ** kk xu。与静态规划相比，动态规划的优越性在于（i）能够得到全局最优解。由于约束条件确定的约束集合往往很复杂，即使指标函数较简单，用非线性规划方法也很难求出全局最优解。而动态规划方法把全过程化为 -62- 一系列结构相似的子问题，每个子问题的变量个数大大减少，约束集合也简单得多，易于得到全局最优解。特别是对于约束集合、状态转移和指标函数不能用分析形式给出的优化问题，可以对每个子过程用枚举法求解，而约束条件越多，决策的搜索范围越小，求解也越容易。对于这类问题，动态规划通常是求全局最优解的唯一方法。（ii）可以得到一族最优解。与非线性规划只能得到全过程的一个最优解不同，动态规划得到的是全过程及所有后部子过程的各个状态的一族最优解。有些实际问题需要这样的解族，即使不需要，它们在分析最优策略和最优值对于状态的稳定性时也是很有用的。当最优策略由于某些原因不能实现时，这样的解族可以用来寻找次优策略。（iii）能够利用经验提高求解效率。如果实际问题本身就是动态的，由于动态规划方法反映了过程逐段演变的前后联系和动态特征，在计算中可以利用实际知识和经验提高求解效率。如在策略迭代法中，实际经验能够帮助选择较好的初始策略，提高收敛速度。动态规划的主要缺点是（i）没有统一的标准模型，也没有构造模型的通用方法，甚至还没有判断一个问题能否构造动态规划模型的准则。这样就只能对每类问题进行具体分析，构造具体的模型。对于较复杂的问题在选择状态、决策、确定状态转移规律等方面需要丰富的想象力和灵活的技巧性，这就带来了应用上的局限性。（ii）用数值方法求解时存在维数灾（curse of dimensionality）。若一维状态变量有m 个取值，那么对于n维问题，状态 k x就有 n m个值，对于每个状态值都要计算、存储函数 kk xf，对于n稍大的实际问题的计算往往是不现实的。目前还没有克服维数灾的有效的一般方法。 5 若干典型问题的动态规划模型 5.1 最短路线问题对于例 1 一类最短路线问题（shortest Path Problem），阶段按过程的演变划分，状态由各段的初始位置确定，决策为从各个状态出发的走向，即有 1kkk xux ，阶段指标为相邻两段状态间的距离, kkkk xuxd，指标函数为阶段指标之和，最优值函数 kk xf是由 k x出发到终点的最短距离（或最小费用），基本方程为 ; 1 ,,],,[min 11 Lnkxfxuxdxf kkkkkk xu kk kk . 0 11 nn xf 利用这个模型可以算出例 l 的最短路线为GFEDCAB 22121 ，相应的最短距离为 18。 5.2 生产计划问题对于例 2 一类生产计划问题（Production planning problem），阶段按计划时间自然划分，状态定义为每阶段开始时的储存量 k x，决策为每个阶段的产量 k u，记每个阶段的需求量（已知量）为 k d，则状态转移方程为 .,, 2 , 1, 0, 1 nkxduxx kkkkk L≥− 5 设每阶段开工的固定成本费为a，生产单位数量产品的成本费为b，每阶段单位数量产品的储存费为c，阶段指标为阶段的生产成本和储存费之和，即 ⎩ ⎨ ⎧ 0 0, , kk kkkk ubua cxuxv 6 -63- 指标函数 kn V为 k v之和。最优值函数 kk xf为从第k段的状态 k x出发到过程终结的最小费用，满足 . 1 ,,],,[min 11 Lnkxfuxvxf kkkkk Uu kk kk ∈ 其中允许决策集合 k U由每阶段的最大生产能力决定。若设过程终结时允许存储量为 0 1n x，则终端条件是 . 0 0 11 nn xf （7）（5）（7）构成该问题的动态规划模型。 5.3 资源分配问题一种或几种资源（包括资金）分配给若干用户，或投资于几家企业，以获得最大的效益。资源分配问题（resource allocating Problem）可以是多阶段决策过程，也可以是静态规划问题，都能构造动态规划模型求解。下面举例说明。例 5 机器可以在高、低两种负荷下生产。u台机器在高负荷下的年产量是ug，在低负荷下的年产量是uh，高、低负荷下机器的年损耗率分别是 1 a和 1 b （10 11 βα），即高、低负荷下每台机器的年产量分别为α和β，结果将有什么特点。解年度为阶段变量nk,, 2 , 1L。状态 k x为第k年初完好的机器数，决策 k u为第k年投入高负荷运行的台数。当 k x或 k u不是整数时，将小数部分理解为一年中正常工作时间或投入高负荷运行时间的比例。机器在高、低负荷下的年完好率分别记为a和b，则 1 1aa−， 1 1bb−，有 ba 3 , 2 , 10 0 321 iu ccuuu i 解按问题的变量个数划分阶段，把它看作为一个三阶段决策问题。设状态变量为 4321 ,,,xxxx，并记cx 1 ；取问题中的变量 321 ,,uuu为决策变量；各阶段指标函数按乘积方式结合。令最优值函数 kk xf表示第k阶段的初始状态为 k x，从k阶段到 3 阶段所得到的最大值。设 33 ux， 223 xux， cxux 112 则有 33 xu， 22 0 xu ≤≤， 11 0 xu ≤≤ 用逆推解法，从后向前依次有 3333 }{max 33 xuxf xu 及最优解 3 * 3 xu ,max}{max}{max 222 0 22 2 2 0 33 2 2 0 22 222222 xuhuxuxfuxf xuxuxu≤≤≤≤≤≤ − 由032 2 222 2 2 −uxu du dh ，得 22 3 2 xu 和0 2 u（舍去）又 22 2 2 2 2 62ux du hd −，而02 2 3 2 2 2 2 2 22 − x du hd xu ，故 22 3 2 xu 为极大值点。所以 3 222 27 4 xxf 及最优解 2 * 2 3 2 xu 。 } 27 4 {max}{max 3 111 0 221 0 11 1111 uxuxfuxf xuxu − ≤≤≤≤ 同样利用微分法易知 4 111 64 1 xxf，最优解 1 * 1 4 1 xu 。由于 1 x已知，因而按计算的顺序反推算，可得各阶段的最优决策和最优值。即 cu 4 1 * 1 ， 4 11 64 1 cxf 由 cccuxx 4 3 4 1 * 112 −− -66- 所以 cxu 2 1 3 2 2 * 2 ， 3 22 16 1 cxf 由 cccuxx 4 1 2 1 4 3 * 223 −− 所以 cu 4 1 * 3 ，cxf 4 1 33 因此得到最优解为cu 4 1 * 1 ，cu 2 1 * 2 ，cu 4 1 * 3 ；最大值为 4 1 64 1 maxccfz。习题四 1. 用 Matlab 编程求例 6 的解。 2. 有四个工人，要指派他们分别完成 4 项工作，每人做各项工作所消耗的时间如表 1 所示。表 1 工作工人 A B C D 甲 15 18 21 24 乙 19 23 22 18 丙 26 17 16 19 丁 19 21 23 17 问指派哪个人去完成哪项工作，可使总的消耗时间为最小试对此问题用动态规划方法求解。 3. 为保证某一设备的正常运转，需备有三种不同的零件 321 ,,EEE。若增加备用零件的数量，可提高设备正常运转的可靠性，但增加了费用，而投资额仅为 8000 元。已知备用零件数与它的可靠性和费用的关系如表 2 所示。表 2 增加的可靠性设备的费用（千元）备件数 1 E 2 E 3 E 1 E 2 E 3 E 1 2 3 0.3 0.4 0.5 0.2 0.5 0.9 0.1 0.2 0.7 1 2 3 3 5 6 2 3 4 现要求在既不超出投资额的限制，又能尽量提高设备运转的可靠性的条件下，问各种零件的备件数量应是多少为好 4. 某工厂购进 100 台机器，准备生产 I、II 两种产品，若生产产品 I，每台机器每年可收入 45 万元，损坏率为 65％；若生产产品 II，每台机器每年收入为 35 万元，损坏率为 35％，估计三年后将有新型机器出现，旧的机器将全部淘汰。试问每年应如何 -67- 安排生产，使在三年内收入最多 5．3 名商人各带 1 名随从乘船渡河，一只小船只能容纳 2 人，由他们自己划行。随从们密约，在河的任一岸，一旦随从人数比商人多，就杀商人。此密约被商人知道，如何乘船渡河的大权掌握在商人们手中，商人们怎样安排每次乘船方案，才能安全渡河呢 6．某一印刷厂有六项加工任务，对印刷车间和装订车间所需时间（单位天）如表 3 所示，试求最优的加工顺序和总加工天数。表 3 任务车间 1 2 3 4 5 6 印刷车间装订车间 3 8 10 12 5 9 2 6 9 5 11 2