Long Short-Term Memory(LSTM)は、時系列データやマルチビューデータなどのシーケンシャルデータから依存関係を抽出するための卓越したリカレントニューラルネットワークであり、さまざまな視覚認識タスクで印象的な結果を達成しています。従来のLSTMネットワークは、1つの入力シーケンスから情報を事後的に抽出するモデルを学習できます。ただし、2つ以上の依存データシーケンスが同時に取得された場合、従来のLSTMネットワークはそれらのシーケンスを連続して処理するだけで、相互の依存関係によって実行される情報を利用できません。このコンテキストでは、この論文は、同時に取得された複数のシーケンスから共同で学習できる2つの新しいLSTMセルアーキテクチャを提案し、認識タスクのよりリッチでより効果的なモデルを作成することを目的としています。新しいLSTMセルアーキテクチャの有効性は、ディープラーニングに基づくマルチビューのライトフィールド画像を使用した顔認識手法に統合することで評価されます。新しいセルアーキテクチャは、ライトフィールドイメージで利用可能なシーンの水平および垂直視差を共同で学習し、両方向からより豊かな空間角情報を取得します。 3つの挑戦的な評価プロトコルを使用したIST-EURECOM LFFDデータセットでの包括的な評価は、最先端のライトフィールドベースの方法よりも顔認識に新しいLSTMセルアーキテクチャを使用する利点を示しています。これらの結果は、相関する入力シーケンスから学習する際の、新しいセルアーキテクチャの付加価値を強調しています。
Long Short-Term Memory (LSTM) is a prominent recurrent neural network for extracting dependencies from sequential data such as time-series and multi-view data, having achieved impressive results for different visual recognition tasks. A conventional LSTM network can learn a model to posteriorly extract information from one input sequence. However, if two or more dependent sequences of data are simultaneously acquired, the conventional LSTM networks may only process those sequences consecutively, not taking benefit of the information carried out by their mutual dependencies. In this context, this paper proposes two novel LSTM cell architectures that are able to jointly learn from multiple sequences simultaneously acquired, targeting to create richer and more effective models for recognition tasks. The efficacy of the novel LSTM cell architectures is assessed by integrating them into deep learning-based methods for face recognition with multi-view, light field images. The new cell architectures jointly learn the scene horizontal and vertical parallaxes available in a light field image, to capture richer spatio-angular information from both directions. A comprehensive evaluation, with the IST-EURECOM LFFD dataset using three challenging evaluation protocols, shows the advantage of using the novel LSTM cell architectures for face recognition over the state-of-the-art light field-based methods. These results highlight the added value of the novel cell architectures when learning from correlated input sequences.