arXiv reaDer
注意辞書を使用して、自己中心的なビデオ内のオブジェクトに対するアクションを認識することを学ぶ
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries
自己中心的なビデオデータセットのアクションラベルの動詞-名詞構造を活用することにより、フレームレベルの機能からアクション-コンテキスト-オブジェクト記述子をプールすることを学習する、ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介します。 EgoACOのコアコンポーネントは、クラスアクティベーションプーリング(CAP)です。これは、きめ細かい認識のための双線形プーリングと識別的ローカリゼーションのための特徴学習からのアイデアを組み合わせた微分可能なプーリング操作です。 CAPは、学習可能な重みの辞書を使用した自己注意を使用して、最も関連性の高い特徴領域からプールします。 EgoACOは、CAPを通じて、ビデオフレーム機能からオブジェクトとシーンのコンテキスト記述子をデコードすることを学習します。 EgoACOでの時間的モデリングのために、Long Short-Term Attention(LSTA)と呼ばれるクラスアクティベーションプーリングの反復バージョンを設計します。 LSTAは、組み込みの空間的注意と再設計された出力ゲートを使用して、畳み込みゲートLSTMを拡張します。アクション、オブジェクト、およびコンテキスト記述子は、自己中心的なビデオデータセット内の名詞-動詞-アクション構造化ラベル間の相互依存性を説明するマルチヘッド予測によって融合されます。 EgoACOは、学習と解釈を支援する組み込みの視覚的説明を備えています。現在利用可能な2つの最大の自己中心的行動認識データセットであるEPIC-KITCHENSとEGTEAの結果は、アクションコンテキストオブジェクト記述子を明示的にデコードすることにより、EgoACOが最先端の認識パフォーマンスを達成することを示しています。
We present EgoACO, a deep neural architecture for video action recognition that learns to pool action-context-object descriptors from frame level features by leveraging the verb-noun structure of action labels in egocentric video datasets. The core component of EgoACO is class activation pooling (CAP), a differentiable pooling operation that combines ideas from bilinear pooling for fine-grained recognition and from feature learning for discriminative localization. CAP uses self-attention with a dictionary of learnable weights to pool from the most relevant feature regions. Through CAP, EgoACO learns to decode object and scene context descriptors from video frame features. For temporal modeling in EgoACO, we design a recurrent version of class activation pooling termed Long Short-Term Attention (LSTA). LSTA extends convolutional gated LSTM with built-in spatial attention and a re-designed output gate. Action, object and context descriptors are fused by a multi-head prediction that accounts for the inter-dependencies between noun-verb-action structured labels in egocentric video datasets. EgoACO features built-in visual explanations, helping learning and interpretation. Results on the two largest egocentric action recognition datasets currently available, EPIC-KITCHENS and EGTEA, show that by explicitly decoding action-context-object descriptors, EgoACO achieves state-of-the-art recognition performance.
updated: Tue Feb 16 2021 10:26:04 GMT+0000 (UTC)
published: Tue Feb 16 2021 10:26:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト