この論文では、アトミックアクション検出問題をLong-Short Term Context(LSTC)に配置して、ビデオ信号間の時間的依存がアクション検出結果にどのように影響するかを分析します。これを行うために、2種類のコンテキストが、客観的なアクションインスタンスが与えられた場合に条件付きで独立しているという仮説の観点から、アクション認識パイプラインを短期および長期の依存に分解します。私たちの設計では、ローカル集約ブランチを使用して、密で有益な短期キューを収集します。一方、高次の長期推論ブランチは、アクターと他の人または人のペアとの間の高次の相互作用から客観的なアクションクラスを推論するように設計されています。 。両方のブランチは独立してコンテキスト固有のアクションを予測し、結果は最終的にマージされます。両方の時間的粒子が原子作用認識に有益であることを示します。アトミックアクション検出の主流のベンチマークでは、私たちの設計は、既存の最先端のパイプラインから大幅なパフォーマンスの向上をもたらすことができます。このプロジェクトのコードは[このURL](https://github.com/TencentYoutuResearch/ActionDetection-LSTC)にあります。
In this paper, we place the atomic action detection problem into a Long-Short Term Context (LSTC) to analyze how the temporal reliance among video signals affect the action detection results. To do this, we decompose the action recognition pipeline into short-term and long-term reliance, in terms of the hypothesis that the two kinds of context are conditionally independent given the objective action instance. Within our design, a local aggregation branch is utilized to gather dense and informative short-term cues, while a high order long-term inference branch is designed to reason the objective action class from high-order interaction between actor and other person or person pairs. Both branches independently predict the context-specific actions and the results are merged in the end. We demonstrate that both temporal grains are beneficial to atomic action recognition. On the mainstream benchmarks of atomic action detection, our design can bring significant performance gain from the existing state-of-the-art pipeline. The code of this project can be found at [this url](https://github.com/TencentYoutuResearch/ActionDetection-LSTC)