arXiv reaDer
MRSN: ビデオ アクション検出のためのマルチリレーション サポート ネットワーク
MRSN: Multi-Relation Support Network for Video Action Detection
アクション検出は、時空間および相互作用関係のモデル化を必要とする、挑戦的なビデオ理解タスクです。現在の方法は通常、アクターとアクターの関係とアクターとコンテキストの関係を別々にモデル化し、それらの補完性と相互サポートを無視しています。この問題を解決するために、Multi-Relation Support Network (MRSN) と呼ばれる新しいネットワークを提案します。 MRSN では、Actor-Context Relation Encoder (ACRE) と Actor-Actor Relation Encoder (AARE) が、Actor-Context とActor-Actor Relation を別々にモデル化します。次に、Relation Support Encoder (RSE) が 2 つの関係間のサポートを計算し、関係レベルの相互作用を実行します。最後に、リレーション コンセンサス モジュール (RCM) は、長期リレーション バンク (LRB) からの長期リレーションを使用して 2 つのリレーションを強化し、コンセンサスを生成します。私たちの実験は、関係を個別にモデル化し、関係レベルの相互作用を実行することで、AVA と UCF101-24 という 2 つの困難なビデオ データセットで最先端の結果を達成し、それを上回ることを示しています。
Action detection is a challenging video understanding task, requiring modeling spatio-temporal and interaction relations. Current methods usually model actor-actor and actor-context relations separately, ignoring their complementarity and mutual support. To solve this problem, we propose a novel network called Multi-Relation Support Network (MRSN). In MRSN, Actor-Context Relation Encoder (ACRE) and Actor-Actor Relation Encoder (AARE) model the actor-context and actor-actor relation separately. Then Relation Support Encoder (RSE) computes the supports between the two relations and performs relation-level interactions. Finally, Relation Consensus Module (RCM) enhances two relations with the long-term relations from the Long-term Relation Bank (LRB) and yields a consensus. Our experiments demonstrate that modeling relations separately and performing relation-level interactions can achieve and outperformer state-of-the-art results on two challenging video datasets: AVA and UCF101-24.
updated: Mon Apr 24 2023 10:15:31 GMT+0000 (UTC)
published: Mon Apr 24 2023 10:15:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト