回顾-循环神经网络 输出 解释 观测 ·隐含状态更新 ht=(Whhht-1+Whxxt-1+bn) ·观测更新 怎么添加 ot=(Whoht +bo) 更多非线性的层? ai
回顾 - 循环神经网络 • 隐含状态更新 • 观测更新 x h 观测 解释 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) 输出 o 怎么添加 更多非线性的层?
计划A-单元的非线性 输出 解释 观测 ·隐含状态更新 ht=(Whhht-1+WhxXt-1+bn) ·观察更新 ot=(Whoht bo) 替代为MLP? D2L.ai
计划 A - 单元的非线性 • 隐含状态更新 • 观察更新 x h 观测 解释 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) 输出 o 替代为MLP?
计划A-单元的非线性 。 保持潜在空涧的结构 更复杂的梯度(非常昂贵) 例如:Zoph et al,2018 缓慢而昂贵,没有人在实践中使用 ·隐含状态更新 ht =(Wnhht-1+WhxXt-1+bh) ·观察更新 ot=φWhoht+bo) 替代为MLP? D2L.ai
计划 A - 单元的非线性 • 隐含状态更新 • 观察更新 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) • 保持潜在空间的结构 • 更复杂的梯度(非常昂贵) 例如: Zoph et al, 2018 缓慢而昂贵,没有人在实践中使用 替代为MLP?
计划B-深度循环神经网络 浅度循环神经网络 ·输入 ·隐含层 ·输出 深度循环神经网络 ·输入 隐含层 隐含层 输出 D2L.ai
计划 B - 深度循环神经网络 • 浅度循环神经网络 • 输入 • 隐含层 • 输出 • 深度循环神经网络 • 输入 • 隐含层 • 隐含层 … • 输出
计划B-深度循环神经网络 H=f(H-1,X) 0,=g(H) H!=f-1,X) …+ 里=甲H) 0,=g(H) D2L.ai
计划 B - 深度循环神经网络