ODE解的反向传播 训练连续深度的网络的主要技术难,点是计 算ODE解的反向转播。 直接按照前向传播的计算路径反向传播是 一个很直观的想法,但是会带来较高的存 储成本并引入额外的数值误差。 论文采取了使用伴随方法(adjoint method)[Pontryagin et al.,1962)】计算梯度的 策略。该方法通过时间上反向求解另一个 增广ODE来逼近计算梯度。之后的梯度即 可进一步用于参数的更新该方法的代价与 问题规模成线性关系,内存消耗较低,并 能够控制数值误差
ODE解的反向传播 训练连续深度的网络的主要技术难点是计 算ODE解的反向转播。 直接按照前向传播的计算路径反向传播是 一个很直观的想法,但是会带来较高的存 储成本并引入额外的数值误差。 论 文 采 取 了 使 用 伴 随 方 法 (adjoint method)[(Pontryagin et al., 1962)]计算梯度的 策略。该方法通过时间上反向求解另一个 增广ODE来逼近计算梯度。之后的梯度即 可进一步用于参数的更新该方法的代价与 问题规模成线性关系,内存消耗较低,并 能够控制数值误差
伴随方法 z即之前的h 若损失函数L定义如下:(z1为神经网络的输出) Let》=L(心f,toan)=L(ODESole(.)foi.on aLaL aLaL 反向传播的目标是求出 Oz(to),80,Oto'Ot 伴随项定义为a(t)=-L/z(t)相当于隐层的梯度。 则由链式法则可以旅出 =-a(t)Of(z(t).t.0) OZ 这其实也是一个ODE,初值为L/z(t),通过反向求解这 个ODE即可求得 aL 8z(to) 解另一个oDE胎-[广agrr0无 08 aL 可求得
伴随方法 若损失函数L定义如下:(zt_1为神经网络的输出) 反向传播的目标是求出 伴随项定义为 相当于隐层的梯度。 则由链式法则可以推出 这其实也是一个ODE,初值为 ,通过反向求解这 个ODE即可求得 解另一个ODE 可求得 z即之前的h