最优控制理论补充连续时间系统西安交通大学电子与信息学部蔡远利教授
最优控制理论补充 连续时间系统 西安交通大学电子与信息学部 蔡远利 教授
随机最优控制问题假设f:R"×U一Rn,O表示引起随机波动的“白噪声”项:(x(s) = f(X(s),U(s)) +o(s)(t<s<T) (1)(x(0)=Xo【定义】控制U是[t,T]到U的一个映射,对每一个时间t<s<T,U(s仅依赖于s以及t<t<T区间的X(T)【定义】收益函数r(x(s),U(s)ds + g(x(T))J[U(O;x,t] = E数学期望是关于随机微分方程(1)解的所有样本轨迹上的平均值。r)表示运行过程收益,9)表示终端收益
随机最优控制问题 假设𝒇: ℝ × 𝑈 ⟶ ℝ,𝝃(⋅)表示引起随机波动的“白噪声”项; ൝𝑿̇ 𝑠 = 𝒇 𝑿 𝑠 , 𝑼(𝑠) + 𝜎𝝃(𝑠) 𝑡 < 𝑠 < 𝑇 𝑿 0 = 𝒙 (1) 【定义】控制𝑼(⋅)是[𝑡, 𝑇]到𝑈的一个映射,对每一个时间𝑡 < 𝑠 < 𝑇,𝑼(𝑠)仅依赖于𝑠以及𝑡 < 𝜏 < 𝑇区 间的𝑿 𝜏 . 【定义】收益函数 𝐽 𝑼 ⋅ ; 𝑥,𝑡 = 𝐸 න 𝑟 𝑿 𝑠 , 𝑼 𝑠 𝑑𝑠 + 𝑔 𝑿 𝑇 ் ௧ 数学期望是关于随机微分方程(1)解的所有样本轨迹上的平均值。𝑟(⋅,⋅)表示运行过程收益, 𝑔(⋅)表示 终端收益
任务与目标找到一个最优控制U*(),使得J[U*(O;x,t] = max/[U(O;x,t]U.【定义】价值函数v(x,t):= supJ[U();x,t]UO求解最优控制U*()的总体思路1,找到v()满足的Hamilton-Jacobi-Bellman偏微分方程2利用该偏微分方程的解设计设计U*
任务与目标 找到一个最优控制𝑼 ∗ (⋅),使得 𝐽 𝑼 ∗ ⋅ ; 𝑥,𝑡 = max 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 【定义】价值函数 𝑣 𝑥,𝑡 : = sup 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 求解最优控制𝑼 ∗ (⋅)的总体思路: 1. 找到𝑣(⋅,⋅)满足的Hamilton-Jacobi-Bellman偏微分方程; 2. 利用该偏微分方程的解设计设计𝑼 ∗
布朗运动【定义】实值随机过程W(t)称为维纳过程或布朗运动,如果① W(0)= 0:2每个样本轨迹是连续的1W(t)是高斯分布的,且μ=0,α2=t(也就是说,W(t)~N(0,t):34对于所有可能的时间0<ti<t2<<tm,随机变量W(ti),W(t2)-W(ti),",W(tm)-W(tm-1)是相互独立的随机变量。上述定义中(4)表明W具有独立增量"。我们可以将一维"白噪声"5()解释为等于aW()然而,这只是形式上的,因为对于几乎所有的の,样本dt轨迹t→W(t,)实际上是不可微的
布朗运动 【定义】实值随机过程𝑊(𝑡)称为维纳过程或布朗运动,如果 ① 𝑊 0 = 0; ② 每个样本轨迹是连续的; ③ 𝑊(𝑡)是高斯分布的,且𝜇 = 0, 𝜎 ଶ = 𝑡(也就是说,𝑊 𝑡 ~𝑁(0,𝑡); ④ 对于所有可能的时间0 < 𝑡ଵ < 𝑡ଶ < ⋯ < 𝑡,随机变量 𝑊 𝑡ଵ , 𝑊 𝑡ଶ − 𝑊 𝑡ଵ , ⋯ , 𝑊 𝑡 − 𝑊(𝑡ିଵ) 是相互独立的随机变量。 上述定义中(4)表明𝑊具有“独立增量”。 我们可以将一维“白噪声”𝜉(·)解释为等于ௗௐ(௧) ௗ௧ 。然而,这只是形式上的,因为对于几乎所有的𝜔,样本 轨迹𝑡 → 𝑊(𝑡, 𝜔)实际上是不可微的
n维布朗运动【定义】n维布朗运动是指W(t) = (w1(t),w?(t),., Wwn(t)其中Wi(t)是独立的一维布朗运动
n维布朗运动 【定义】 维布朗运动是指 ଵ ଶ ் 其中 是独立的一维布朗运动