ビデオから人間の行動を予測するための新しいアーキテクチャを紹介します。時間的反復エンコーダーは、入力ビデオの時間的情報をキャプチャし、自己注意モデルを使用して、入力空間の関連する特徴の次元に注意を向けます。観測されたビデオデータの時間的変動を処理するために、特徴マスキング技術が採用されています。これまでに何が起こったかを理解するのに役立つ補助分類器を使用して、観察されたアクションを正確に分類します。次に、デコーダーは、反復エンコーダーの出力と自己注意モデルに基づいて、将来のアクションを生成します。実験的に、アーキテクチャの各コンポーネントを検証し、関連する特徴の次元、時間的マスキング、および観察された補助分類子を識別するための自己注意の影響を確認します。 2つの標準的なアクション予測ベンチマークでメソッドを評価し、最先端の結果を取得します。
We present a new architecture for human action forecasting from videos. A temporal recurrent encoder captures temporal information of input videos while a self-attention model is used to attend on relevant feature dimensions of the input space. To handle temporal variations in observed video data, a feature masking techniques is employed. We classify observed actions accurately using an auxiliary classifier which helps to understand what has happened so far. Then the decoder generates actions for the future based on the output of the recurrent encoder and the self-attention model. Experimentally, we validate each component of our architecture where we see that the impact of self-attention to identify relevant feature dimensions, temporal masking, and observed auxiliary classifier. We evaluate our method on two standard action forecasting benchmarks and obtain state-of-the-art results.