关键词

《序列模型》之循环神经网络基础

RNN model

模型架构


BPTT





不同类型的RNN

梯度爆炸和梯度消失

出现原因






解决梯度爆炸

检测

梯度裁剪


截断BPTT

解决梯度消失

很难检测


如何解决

  • LSTM,GRU
  • ReLU**函数
  • 循环权重矩阵初始化方法
  • Skip connections


    将权重矩阵分解Q1ΛQQ1ΛQ的话,其中ΛΛ是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
    那么若干时间步的权重乘积可以表示为Q1ΛnQQ1ΛnQ
    由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。

LSTM and GRU

LSTM v0


LSTM with forget gate



Long Short-term Memory

GRU



On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

  • LSTM 更加灵活
  • GRU 更少的参数
    一般先训练LSTM,然后训练GRU,最后对比并选择

BiRNN and Deep RNN



参考资料

本文链接:http://task.lmcjl.com/news/732.html

展开阅读全文