arXiv reaDer
ビデオでの言語駆動型アクションローカリゼーションのためのエンティティ認識およびモーション認識トランスフォーマー
Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos
ビデオでの言語主導のアクションローカリゼーションは、視覚的な言語マッチングだけでなく、アクション境界の予測も含む難しいタスクです。最近の進歩は、言語クエリをビデオセグメントに合わせることによって達成されましたが、正確な境界を推定することはまだ十分に検討されていません。この論文では、最初にエンティティクエリでクリップを粗く配置し、次にモーションクエリで縮小した側頭葉の正確な境界を細かく予測することにより、ビデオ内のアクションを段階的にローカライズするエンティティ認識およびモーション認識トランスフォーマーを提案します。エンティティ認識トランスフォーマーは、アクション関連のビデオクリップへの参加を容易にするために、クロスモーダルおよびクロスフレームの注意を介してテキストエンティティを視覚表現学習に組み込みます。モーションアウェアトランスフォーマーは、アクション境界予測の精度をさらに向上させるために、長期短期記憶を自己注意モジュールに統合することにより、複数の時間スケールでのきめ細かいモーション変化をキャプチャします。 Charades-STAおよびTACoSデータセットに関する広範な実験は、私たちの方法が既存の方法よりも優れたパフォーマンスを達成することを示しています。
Language-driven action localization in videos is a challenging task that involves not only visual-linguistic matching but also action boundary prediction. Recent progress has been achieved through aligning language query to video segments, but estimating precise boundaries is still under-explored. In this paper, we propose entity-aware and motion-aware Transformers that progressively localizes actions in videos by first coarsely locating clips with entity queries and then finely predicting exact boundaries in a shrunken temporal region with motion queries. The entity-aware Transformer incorporates the textual entities into visual representation learning via cross-modal and cross-frame attentions to facilitate attending action-related video clips. The motion-aware Transformer captures fine-grained motion changes at multiple temporal scales via integrating long short-term memory into the self-attention module to further improve the precision of action boundary prediction. Extensive experiments on the Charades-STA and TACoS datasets demonstrate that our method achieves better performance than existing methods.
updated: Thu May 12 2022 03:00:40 GMT+0000 (UTC)
published: Thu May 12 2022 03:00:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト