You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization
時空間アクションのローカリゼーションでは、設計されたアーキテクチャに2つの情報ソースを組み込む必要があります。(1)前のフレームからの時間情報と(2)キーフレームからの空間情報です。現在の最先端のアプローチでは、通常、これらの情報を個別のネットワークで抽出し、融合のための追加のメカニズムを使用して検出を取得します。この作業では、ビデオストリームでのリアルタイムの時空間アクションローカリゼーションのための統合CNNアーキテクチャであるYOWOを紹介します。 YOWOは、時間的および空間的情報を同時に抽出し、1回の評価でビデオクリップから直接バウンディングボックスとアクション確率を予測する2つのブランチを備えたシングルステージアーキテクチャです。アーキテクチャ全体が統合されているため、エンドツーエンドで最適化できます。 YOWOアーキテクチャは、16フレームの入力クリップで毎秒34フレーム、8フレームの入力クリップで毎秒62フレームを高速に提供します。これは、現在、時空間アクションローカリゼーションタスクで最速の最先端アーキテクチャです。 。驚くべきことに、YOWOは、J-HMDB-21とUCF101-24での以前の最先端の結果を上回り、それぞれ約3%と約12%の印象的な改善を示しています。さらに、YOWOは、AVAデータセットで競争力のある結果を提供する最初で唯一のシングルステージアーキテクチャです。コードと事前トレーニング済みモデルを公開します。
Spatiotemporal action localization requires the incorporation of two sources of information into the designed architecture: (1) temporal information from the previous frames and (2) spatial information from the key frame. Current state-of-the-art approaches usually extract these information with separate networks and use an extra mechanism for fusion to get detections. In this work, we present YOWO, a unified CNN architecture for real-time spatiotemporal action localization in video streams. YOWO is a single-stage architecture with two branches to extract temporal and spatial information concurrently and predict bounding boxes and action probabilities directly from video clips in one evaluation. Since the whole architecture is unified, it can be optimized end-to-end. The YOWO architecture is fast providing 34 frames-per-second on 16-frames input clips and 62 frames-per-second on 8-frames input clips, which is currently the fastest state-of-the-art architecture on spatiotemporal action localization task. Remarkably, YOWO outperforms the previous state-of-the art results on J-HMDB-21 and UCF101-24 with an impressive improvement of ~3% and ~12%, respectively. Moreover, YOWO is the first and only single-stage architecture that provides competitive results on AVA dataset. We make our code and pretrained models publicly available.
updated: Mon Oct 18 2021 12:53:47 GMT+0000 (UTC)
published: Fri Nov 15 2019 14:09:47 GMT+0000 (UTC)
