arXiv reaDer
アクション検出のための時空間コンテキスト
Spatio-Temporal Context for Action Detection
アクション検出の研究は、ビデオの理解に重要な役割を果たしているため、近年成長しています。アクターとそのコンテキストの間の相互作用(空間的または時間的)のモデル化は、このタスクに不可欠であることが証明されています。最近の作品は、集約された時間情報を備えた空間的特徴を使用していますが、この作品は、集約されていない時間情報を使用することを提案しています。これは、クリップに沿ったシーン内の要素間の時空間相互作用を活用するアテンションベースの方法を追加することによって行われます。この作業の主な貢献は、空間関係を効果的にモデル化し、短距離の時間的相互作用をキャプチャするための2つのクロスアテンションブロックの導入です。 .AVAデータセットの実験は、シーン内の関連要素間の時空間関係をモデル化する提案されたアプローチの利点を示しており、俳優とそのコンテキストとの相互作用を+ 0.31mAPモデル化する他の方法よりも優れています。
Research in action detection has grown in the recentyears, as it plays a key role in video understanding. Modelling the interactions (either spatial or temporal) between actors and their context has proven to be essential for this task. While recent works use spatial features with aggregated temporal information, this work proposes to use non-aggregated temporal information. This is done by adding an attention based method that leverages spatio-temporal interactions between elements in the scene along the clip.The main contribution of this work is the introduction of two cross attention blocks to effectively model the spatial relations and capture short range temporal interactions.Experiments on the AVA dataset show the advantages of the proposed approach that models spatio-temporal relations between relevant elements in the scene, outperforming other methods that model actor interactions with their context by +0.31 mAP.
updated: Tue Jun 29 2021 08:33:48 GMT+0000 (UTC)
published: Tue Jun 29 2021 08:33:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト