多くのビデオ理解タスクは、入力ビデオが最初から最後まで与えられると想定することにより、オフライン設定で機能します。ただし、実際の問題の多くはオンライン設定を必要とし、自動運転や監視システムなど、現在および過去のビデオフレームのみを使用して即座に決定を下します。この論文では、Future Anticipation and Temporally Smoothing network(FATSnet)と呼ばれるシンプルで効果的なRNNベースのネットワークを使用したオンラインアクション検出の新しいソリューションを紹介します。提案されたネットワークは、サイクル整合性の損失を伴う教師なし方法でトレーニングできる未来を予測するためのモジュールと、時間的にスムーズなフレームごとの予測のために過去と未来を集約するための別のコンポーネントで構成されます。また、非常に長いシーケンスでRNNベースのモデルを実行する際のパフォーマンスの低下を軽減するソリューションを提案します。 TVSeries、THUMOS14、およびBBDBでの評価は、私たちの方法がオンラインアクション検出に関する以前の研究と比較して最先端のパフォーマンスを達成していることを示しています。
Many video understanding tasks work in the offline setting by assuming that the input video is given from the start to the end. However, many real-world problems require the online setting, making a decision immediately using only the current and the past frames of videos such as in autonomous driving and surveillance systems. In this paper, we present a novel solution for online action detection by using a simple yet effective RNN-based networks called the Future Anticipation and Temporally Smoothing network (FATSnet). The proposed network consists of a module for anticipating the future that can be trained in an unsupervised manner with the cycle-consistency loss, and another component for aggregating the past and the future for temporally smooth frame-by-frame predictions. We also propose a solution to relieve the performance loss when running RNN-based models on very long sequences. Evaluations on TVSeries, THUMOS14, and BBDB show that our method achieve the state-of-the-art performances compared to the previous works on online action detection.