arXiv reaDer
グラフベースの時空間相互作用を学習することによるビデオアクション検出
Video action detection by learning graph-based spatio-temporal interactions
アクション検出は、ビデオクリップ内の人間のアクションを検出して分類することを目的とした複雑なタスクです。通常、これは、ビデオ分類バックボーンから抽出されたきめ細かい特徴を処理することによって対処されてきました。最近、オブジェクトと人の検出器の堅牢性のおかげで、関係モデリングにより深い焦点が追加されました。この線に続いて、空間と時間の両方で、人と物の間の高レベルの相互作用を学習するためのグラフベースのフレームワークを提案します。私たちの定式化では、時空間関係は、連続するクリップからエンティティを接続できる多層グラフ構造での自己注意を通じて学習されるため、長距離の空間的および時間的依存性が考慮されます。提案されたモジュールは、設計上バックボーンに依存せず、エンドツーエンドのトレーニングを必要としません。広範な実験がAVAデータセットで実施され、モデルは最先端の結果と、さまざまなバックボーンで構築されたベースラインに対する一貫した改善を示しています。コードはhttps://github.com/aimagelab/STAGE_action_detectionで公開されています。
Action Detection is a complex task that aims to detect and classify human actions in video clips. Typically, it has been addressed by processing fine-grained features extracted from a video classification backbone. Recently, thanks to the robustness of object and people detectors, a deeper focus has been added on relationship modelling. Following this line, we propose a graph-based framework to learn high-level interactions between people and objects, in both space and time. In our formulation, spatio-temporal relationships are learned through self-attention on a multi-layer graph structure which can connect entities from consecutive clips, thus considering long-range spatial and temporal dependencies. The proposed module is backbone independent by design and does not require end-to-end training. Extensive experiments are conducted on the AVA dataset, where our model demonstrates state-of-the-art results and consistent improvements over baselines built with different backbones. Code is publicly available at https://github.com/aimagelab/STAGE_action_detection.
updated: Mon Mar 01 2021 10:37:54 GMT+0000 (UTC)
published: Mon Dec 09 2019 19:01:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト