神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

关键词

神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。

回顾

前面五小节，我们简单学习了卷积神经网络（CNN）反向传播算法的推导，然后我们自己实现了一个浅层卷积神经网络。卷积神经网络在本系列中先告一段落，我们开始学习循环神经网络的相关知识。本系列的主旨是基础学习，大致了解各个神经网络的基本原理。至于更深的应用，我们留待以后学习。

正向传播

网上关于RNN的介绍非常多，我们这里就不多啰嗦了（主要博主也是似懂非懂），直接进入它的公式部分。为了方便理解，咱们还是以一个直观RNN的展开图开始

就上面的网络结构而言，RNN结构的基本单元可以看作是简单的三层神经网络（也可以是多层的，为了简单起见，以三层为例），与常规的神经网络不同的地方在于，它的隐层会将上一个时刻的隐层输出纳入到当前时刻隐层的输入中，这样就携带了过往时刻的相关信息了。下面是公式的对比

	BP Net	RNN
input layer	a=x $a = x$	at=xt $a^{t} = x^{t}$
hidden layer	zh=Va+bhh=σ(zh) $z_{h} = V a + b_{h} h = σ (z_{h})$	zth=Vat+Uht−1h+bhht=σ(zth)[一般选取tanh函数] $z_{h}^{t} = V a^{t} + U h_{h}^{t - 1} + b_{h} h^{t} = σ (z_{h}^{t}) [一般选取 t a n h 函数]$
output layer	zy=Wh+byy=σ(zy) $z_{y} = W h + b_{y} y = σ (z_{y})$	zty=Wht+byyt=σ(zty) $z_{y}^{t} = W h^{t} + b_{y} y^{t} = σ (z_{y}^{t})$

结合上图，RNN的正向传播算法就很好理解了。RNN的输入是序列数据，需要训练的模型参数有 V $V$ 、W $W$ 、U $U$ 和 bh、by $b_{h} 、 b_{y}$ 。下图为某时刻隐层单元的结构示意图

反向传播

记 C=f(W,U,V,bh,bh) $C = f (W, U, V, b_{h}, b_{h})$ 是我们的代价函数，依旧记 δ=∂C/∂z $δ = \partial C / \partial z$ 为误差。那么有

δty=∇ytC⊙σ′(zty)(1) $\begin{matrix} (1) & δ_{y}^{t} = \nabla_{y^{t}} C ⊙ σ^{'} (z_{y}^{t}) \end{matrix}$

，由上式可推导出

δth=∂C∂zth=∂C∂zty∂zty∂ht∂ht∂zth+∂C∂zt+1y∂zt+1y∂ht∂ht∂zth=(WTδty+UTδt+1h)⊙σ′(zth)(2) $\begin{matrix} (2) & δ_{h}^{t} = \frac{\partial C}{\partial z_{h}^{t}} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} + \frac{\partial C}{\partial z_{y}^{t + 1}} \frac{\partial z_{y}^{t + 1}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} = (W^{T} δ_{y}^{t} + U^{T} δ_{h}^{t + 1}) ⊙ σ^{'} (z_{h}^{t}) \end{matrix}$

上面表红的地方是因为下一个时刻的 zt+1 $z^{t + 1}$ 也需要当前时刻的 ht $h^{t}$ 。有了 δ $δ$ 的表达式，我们就可以很容易计算出模型参数的梯度，如下：

∂C∂W=∂C∂zty∂zty∂W=(ht)Tδty(3) $\begin{matrix} (3) & \frac{\partial C}{\partial W} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial W} = {(h^{t})}^{T} δ_{y}^{t} \end{matrix}$

∂C∂V=∂C∂zth∂zth∂W=aTδth(4) $\begin{matrix} (4) & \frac{\partial C}{\partial V} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial W} = a^{T} δ_{h}^{t} \end{matrix}$

∂C∂U=∂C∂zth∂zth∂U=(ht−1)Tδth(5) $\begin{matrix} (5) & \frac{\partial C}{\partial U} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial U} = {(h^{t - 1})}^{T} δ_{h}^{t} \end{matrix}$

∂C∂bh=δth,∂C∂by=δty(6) $\begin{matrix} (6) & \frac{\partial C}{\partial b_{h}} = δ_{h}^{t}, \frac{\partial C}{\partial b_{y}} = δ_{y}^{t} \end{matrix}$

通过矩阵的写法，反向传播算法的表述十分简洁清晰。利用公式（1）-（6）我们就可以实现误差的反向传播了。

小结

上面简单总结了通用的RNN模型和正向反向传播算法。当然，有些RNN模型会有些不同，自然正向反向传播的公式会有些不一样，但是原理基本类似。

RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。

参考资料：
1、循环神经网络RNN以及LSTM的推导和实现

本文链接：http://task.lmcjl.com/news/12092.html

展开阅读全文

上一篇：目标检测 object-detection 下一篇：caffe神经网络中不同的lr_policy间的区别

热门文章排行

推荐文章

关键词

神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

回顾

正向传播

反向传播

小结