arXiv reaDer
ゲーティングの再検討:トレーニング可能なディープマルチレイヤーRNN
Gating Revisited: Deep Multi-layer RNNs That Can Be Trained
リカレントニューラルネットワーク(RNN)用の新しいSTAckable Recurrent cell(STAR)を提案します。これは、広く使用されているLSTMおよびGRUよりもパラメーターが少なく、勾配の消失または爆発に対してより堅牢です。回帰ユニットを深いアーキテクチャにスタックすることには、2つの大きな制限があります。(i)多くの回帰セル(LSTMなど)は、パラメータと計算リソースの点でコストがかかります。 (ii)深いRNNは、トレーニング中に勾配が消失または爆発する傾向があります。多層RNNのトレーニングを調査し、勾配がネットワークを「垂直」方向に伝播するときの勾配の大きさを調べます。基本的な再発ユニットの構造に応じて、勾配が体系的に減衰または増幅されることを示します。私たちの分析に基づいて、勾配の大きさをよりよく保存する新しいタイプのゲートセルを設計します。多数のシーケンスモデリングタスクで設計を検証し、提案されたSTARセルがより深い反復アーキテクチャの構築とトレーニングを可能にし、最終的には計算効率を高めながらパフォーマンスを向上させることを実証します。
We propose a new STAckable Recurrent cell (STAR) for recurrent neural networks (RNNs), which has fewer parameters than widely used LSTM and GRU while being more robust against vanishing or exploding gradients. Stacking recurrent units into deep architectures suffers from two major limitations: (i) many recurrent cells (e.g., LSTMs) are costly in terms of parameters and computation resources; and (ii) deep RNNs are prone to vanishing or exploding gradients during training. We investigate the training of multi-layer RNNs and examine the magnitude of the gradients as they propagate through the network in the "vertical" direction. We show that, depending on the structure of the basic recurrent unit, the gradients are systematically attenuated or amplified. Based on our analysis we design a new type of gated cell that better preserves gradient magnitude. We validate our design on a large number of sequence modelling tasks and demonstrate that the proposed STAR cell allows to build and train deeper recurrent architectures, ultimately leading to improved performance while being computationally more efficient.
updated: Sat Nov 28 2020 18:07:40 GMT+0000 (UTC)
published: Mon Nov 25 2019 16:35:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト