arXiv reaDer
ビデオの時間的アクションローカリゼーションのためのグラフ畳み込みモジュール
Graph Convolutional Module for Temporal Action Localization in Videos
時間的アクションのローカリゼーションは、コンピュータビジョンで長い間研究されてきました。既存の最先端のアクションローカリゼーション方法は、各ビデオを複数のアクションユニット(つまり、2段階の方法での提案と1段階の方法でのセグメント)に分割し、明示的にせずに、それぞれに対して個別にアクションの認識/回帰を実行します学習中に彼らの関係を利用する。この論文では、アクションユニット間の関係がアクションのローカリゼーションにおいて重要な役割を果たしていると主張し、より強力なアクション検出器は、各アクションユニットのローカルコンテンツをキャプチャするだけでなく、それ。この目的のために、2段階および1段階のパラダイムを含む既存のアクションローカリゼーション手法に簡単にプラグインできる一般的なグラフ畳み込みモジュール(GCM)を提案します。具体的には、まずグラフを作成します。各アクションユニットはノードとして表され、2つのアクションユニット間の関係はエッジとして表されます。ここでは、2つのタイプの関係を使用します。1つは異なるアクションユニット間の時間的接続をキャプチャするためのもので、もう1つはそれらの意味関係を特徴付けるためのものです。特に2段階の方法での時間的接続については、2つの異なる種類のエッジをさらに調査します。1つは重なり合うアクションユニットを接続し、もう1つは周囲の分離したユニットを接続します。作成したグラフに基づいて、グラフ畳み込みネットワーク(GCN)を適用して、さまざまなアクションユニット間の関係をモデル化します。これにより、アクションのローカリゼーションを強化するためのより有益な表現を学習できます。実験結果は、GCMが2段階の方法(CBRやR-C3Dなど)と1段階の方法(D-SSADなど)を含む既存のアクションローカリゼーション方法のパフォーマンスを一貫して改善することを示しており、 GCM。
Temporal action localization has long been researched in computer vision. Existing state-of-the-art action localization methods divide each video into multiple action units (i.e., proposals in two-stage methods and segments in one-stage methods) and then perform action recognition/regression on each of them individually, without explicitly exploiting their relations during learning. In this paper, we claim that the relations between action units play an important role in action localization, and a more powerful action detector should not only capture the local content of each action unit but also allow a wider field of view on the context related to it. To this end, we propose a general graph convolutional module (GCM) that can be easily plugged into existing action localization methods, including two-stage and one-stage paradigms. To be specific, we first construct a graph, where each action unit is represented as a node and their relations between two action units as an edge. Here, we use two types of relations, one for capturing the temporal connections between different action units, and the other one for characterizing their semantic relationship. Particularly for the temporal connections in two-stage methods, we further explore two different kinds of edges, one connecting the overlapping action units and the other one connecting surrounding but disjointed units. Upon the graph we built, we then apply graph convolutional networks (GCNs) to model the relations among different action units, which is able to learn more informative representations to enhance action localization. Experimental results show that our GCM consistently improves the performance of existing action localization methods, including two-stage methods (e.g., CBR and R-C3D) and one-stage methods (e.g., D-SSAD), verifying the generality and effectiveness of our GCM.
updated: Wed Dec 01 2021 06:36:59 GMT+0000 (UTC)
published: Wed Dec 01 2021 06:36:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト