ビデオ内のオブジェクト間の短距離および長距離の両方の空間的および時間的関係は、アクションを認識するための重要な手がかりです。それらを一緒にモデル化することは困難な問題です。このホワイトペーパーでは、オブジェクト間の空間と時間にまたがる関係推論の課題に対処するために、最初に新しい長期記憶の変種、つまりRelational LSTMを紹介します。リレーショナルLSTMモジュールでは、最近提案された非ローカルネットワークと同様の精神の非ローカル操作を利用して、バニラLSTMの完全に接続された操作を置き換えます。これにより、私たちのRelational LSTMは、ビデオ内のオブジェクト間の長距離および短距離の時空間関係を原理的な方法でキャプチャできます。次に、非ローカルブランチとしてRelational LSTMモジュールと、ローカルブランチに基づく時空間プーリングからなる2ブランチニューラルアーキテクチャを提案します。ローカルブランチは、ローカルの空間的外観や短期間のモーション機能をキャプチャするために使用されます。 2つのブランチを連結して、スニペットレベルの機能からビデオレベルの機能を学習し、分類に使用します。 UCF-101およびHMDB-51データセットの実験結果は、モデルがLSTMベースのメソッド間で最先端の結果を達成する一方で、他の最先端のメソッド(直接比較できない方法を使用してスキーマ)。さらに、より複雑で大規模なCharadesデータセットでは、最新の方法に比べて3.2%の大きな利得が得られ、複雑な理解におけるこの方法の有効性が検証されています。
Spatial and temporal relationships, both short-range and long-range, between objects in videos, are key cues for recognizing actions. It is a challenging problem to model them jointly. In this paper, we first present a new variant of Long Short-Term Memory, namely Relational LSTM, to address the challenge of relation reasoning across space and time between objects. In our Relational LSTM module, we utilize a non-local operation similar in spirit to the recently proposed non-local network to substitute the fully connected operation in the vanilla LSTM. By doing this, our Relational LSTM is capable of capturing long and short-range spatio-temporal relations between objects in videos in a principled way. Then, we propose a two-branch neural architecture consisting of the Relational LSTM module as the non-local branch and a spatio-temporal pooling based local branch. The local branch is utilized for capturing local spatial appearance and/or short-term motion features. The two branches are concatenated to learn video-level features from snippet-level ones which are then used for classification. Experimental results on UCF-101 and HMDB-51 datasets show that our model achieves state-of-the-art results among LSTM-based methods, while obtaining comparable performance with other state-of-the-art methods (which use not directly comparable schema). Further, on the more complex large-scale Charades dataset, we obtain a large 3.2% gain over state-of-the-art methods, verifying the effectiveness of our method in complex understanding.