Gaussian Temporal Awareness Networks for Action Localization
  ビデオのアクションを一時的にローカライズすることは、ビデオを理解する上での根本的な課題です。ほとんどの既存のアプローチは、画像オブジェクト検出からインスピレーションを得て、1Dシーケンスでアクションの時間的位置を生成するために、SSDやFaster R-CNNなどの進歩を拡張しました。それにもかかわらず、結果は、アクションの時間的構造を見落とし、複雑な変動を伴うアクションの検出の有用性を制限する、所定の時間スケールの設計によるロバスト性の問題に悩まされる可能性があります。本論文では、ガウスカーネルを導入して各アクション提案の時間スケールを動的に最適化することにより、この問題に対処することを提案します。具体的には、Gaussian Temporal Awareness Networks(GTAN)---時間構造の活用を一段階のアクションローカリゼーションフレームワークに新規に統合する新しいアーキテクチャを紹介します。技術的には、GTANはガウスカーネルのセットを学習することにより時間構造をモデリングします。ガウスカーネルはそれぞれ機能マップのセルに対応しています。各ガウスカーネルは、アクション提案の特定の間隔に対応し、ガウスカーネルの混合物は、さまざまな長さのアクション提案をさらに特徴付けることができます。さらに、各ガウス曲線の値は、アクション提案のローカライズへのコンテキストの貢献を反映しています。 THUMOS14とActivityNet v1.3の両方のデータセットで広範な実験が実施されており、最先端のアプローチと比較すると優れた結果が報告されています。さらに注目すべきは、GTANが2つのデータセットのテストセットでmAPを1.9%および1.1%改善することです。
Temporally localizing actions in a video is a fundamental challenge in video understanding. Most existing approaches have often drawn inspiration from image object detection and extended the advances, e.g., SSD and Faster R-CNN, to produce temporal locations of an action in a 1D sequence. Nevertheless, the results can suffer from robustness problem due to the design of predetermined temporal scales, which overlooks the temporal structure of an action and limits the utility on detecting actions with complex variations. In this paper, we propose to address the problem by introducing Gaussian kernels to dynamically optimize temporal scale of each action proposal. Specifically, we present Gaussian Temporal Awareness Networks (GTAN) --- a new architecture that novelly integrates the exploitation of temporal structure into an one-stage action localization framework. Technically, GTAN models the temporal structure through learning a set of Gaussian kernels, each for a cell in the feature maps. Each Gaussian kernel corresponds to a particular interval of an action proposal and a mixture of Gaussian kernels could further characterize action proposals with various length. Moreover, the values in each Gaussian curve reflect the contextual contributions to the localization of an action proposal. Extensive experiments are conducted on both THUMOS14 and ActivityNet v1.3 datasets, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GTAN achieves 1.9% and 1.1% improvements in mAP on testing set of the two datasets.
