arXiv reaDer
時間的アクションローカリゼーションのためのアクティビティグラフトランスフォーマー
Activity Graph Transformer for Temporal Action Localization
ビデオを入力として受け取り、ビデオに表示される一連のアクションインスタンスを直接予測する、時間的アクションローカリゼーションのエンドツーエンドの学習可能なモデルであるActivity GraphTransformerを紹介します。トリミングされていない動画のアクションインスタンスを検出してローカライズするには、動画内の複数のアクションインスタンスを推論する必要があります。文献の主要なパラダイムは、ビデオを一時的に処理して、アクション領域を提案するか、フレームレベルの検出を直接生成します。ただし、ビデオの順次処理は、アクションインスタンスに非順次依存関係や、ビデオの過程でのアクションインスタンスの重複やアクションインスタンスの再発など、非線形の時間的順序がある場合に問題があります。この作業では、ビデオをグラフの形式の非順次エンティティとして推論することにより、この非線形の時間的構造をキャプチャします。挑戦的なデータセット(THUMOS14、Charades、EPIC-Kitchens-100)でモデルを評価します。私たちの結果は、提案されたモデルが最先端技術をかなりの差で上回っていることを示しています。
We introduce Activity Graph Transformer, an end-to-end learnable model for temporal action localization, that receives a video as input and directly predicts a set of action instances that appear in the video. Detecting and localizing action instances in untrimmed videos requires reasoning over multiple action instances in a video. The dominant paradigms in the literature process videos temporally to either propose action regions or directly produce frame-level detections. However, sequential processing of videos is problematic when the action instances have non-sequential dependencies and/or non-linear temporal ordering, such as overlapping action instances or re-occurrence of action instances over the course of the video. In this work, we capture this non-linear temporal structure by reasoning over the videos as non-sequential entities in the form of graphs. We evaluate our model on challenging datasets: THUMOS14, Charades, and EPIC-Kitchens-100. Our results show that our proposed model outperforms the state-of-the-art by a considerable margin.
updated: Thu Jan 21 2021 10:42:48 GMT+0000 (UTC)
published: Thu Jan 21 2021 10:42:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト