複数の視点からキャプチャされた視覚シーケンスで利用可能な視点内および視点間の関係の両方を学習できる新しいLSTMセルアーキテクチャを提示します。私たちのアーキテクチャは、セルレベルで追加のゲートとメモリを使用する新しい反復共同学習戦略を採用しています。提案されたセルを使用してネットワークを作成することにより、認識タスクのためにより効果的でより豊かな視覚的表現が学習されることを示します。読唇術と顔認識という2つの多視点視覚認識タスクのコンテキストで、提案されたアーキテクチャのパフォーマンスを検証します。 3つの関連するデータセットが検討され、その結果が融合戦略、他の既存のマルチ入力LSTMアーキテクチャ、および代替認識ソリューションと比較されます。実験は、認識の精度と複雑さの両方の点で、検討されたベンチマークよりも優れたソリューションのパフォーマンスを示しています。コードはhttps://github.com/arsm/MPLSTMで公開されています。
We present a novel LSTM cell architecture capable of learning both intra- and inter-perspective relationships available in visual sequences captured from multiple perspectives. Our architecture adopts a novel recurrent joint learning strategy that uses additional gates and memories at the cell level. We demonstrate that by using the proposed cell to create a network, more effective and richer visual representations are learned for recognition tasks. We validate the performance of our proposed architecture in the context of two multi-perspective visual recognition tasks namely lip reading and face recognition. Three relevant datasets are considered and the results are compared against fusion strategies, other existing multi-input LSTM architectures, and alternative recognition solutions. The experiments show the superior performance of our solution over the considered benchmarks, both in terms of recognition accuracy and complexity. We make our code publicly available at https://github.com/arsm/MPLSTM.