リカレントニューラルネットワーク(RNN)は、音声やオンライン手書き認識などの1次元シーケンス学習タスクで効果的であることが証明されています。 RNNをこのようなタスクに適したものにするプロパティの一部、たとえば入力のゆがみに対する堅牢性、およびコンテキスト情報にアクセスする機能は、多次元ドメインでも望ましいものです。ただし、これまでのところ、複数の時空間ディメンションを持つデータにRNNを直接適用する方法はありませんでした。このホワイトペーパーでは、多次元リカレントニューラルネットワーク(MDRNN)を紹介します。これにより、他の多次元モデルを悩ませているスケーリングの問題を回避しながら、RNNの潜在的な適用可能性を視覚、ビデオ処理、医療画像処理、および他の多くの分野に拡張します。 2つの画像セグメンテーションタスクの実験結果が提供されます。
Recurrent neural networks (RNNs) have proved effective at one dimensional sequence learning tasks, such as speech and online handwriting recognition. Some of the properties that make RNNs suitable for such tasks, for example robustness to input warping, and the ability to access contextual information, are also desirable in multidimensional domains. However, there has so far been no direct way of applying RNNs to data with more than one spatio-temporal dimension. This paper introduces multi-dimensional recurrent neural networks (MDRNNs), thereby extending the potential applicability of RNNs to vision, video processing, medical imaging and many other areas, while avoiding the scaling problems that have plagued other multi-dimensional models. Experimental results are provided for two image segmentation tasks.