トリミングされていない動画での一時的なアクションのローカリゼーションは重要ですが、難しい作業です。ビデオの時間構造をモデル化するとき、既存の方法を適用する際に問題が発生します。本研究では、ジェミニネットワークと呼ばれる新しい手法を開発し、時間構造の効果的なモデリングと高性能な時間アクションローカリゼーションを実現しました。提案された方法によってもたらされる大幅な改善は、3つの主要な要因に起因しています。最初に、開発されたネットワークは、時間構造の効果的なモデリングのために2つのサブネットを利用します。次に、3つの並列フィーチャ抽出パイプラインを使用して、異なるステージフィーチャの抽出間の干渉を防ぎます。第三に、提案された方法は、ネットワークのモデリング機能を改善するための追加の制約を提供する補助分類器損失を伴う補助監視を利用します。その有効性の実証として、Geminiネットワークを使用して、2つの困難なデータセット、すなわちTHUMOS14とActivityNetで最先端の時間的アクションローカリゼーションパフォーマンスを達成しました。
Temporal action localization in untrimmed videos is an important but difficult task. Difficulties are encountered in the application of existing methods when modeling temporal structures of videos. In the present study, we developed a novel method, referred to as Gemini Network, for effective modeling of temporal structures and achieving high-performance temporal action localization. The significant improvements afforded by the proposed method are attributable to three major factors. First, the developed network utilizes two subnets for effective modeling of temporal structures. Second, three parallel feature extraction pipelines are used to prevent interference between the extractions of different stage features. Third, the proposed method utilizes auxiliary supervision, with the auxiliary classifier losses affording additional constraints for improving the modeling capability of the network. As a demonstration of its effectiveness, the Gemini Network was used to achieve state-of-the-art temporal action localization performance on two challenging datasets, namely, THUMOS14 and ActivityNet.