時空間アクションのローカリゼーションでは、2つの情報ソースを設計アーキテクチャに組み込む必要があります。(1)前のフレームからの時間情報と(2)キーフレームからの空間情報。現在の最先端のアプローチでは、通常、これらの情報を個別のネットワークで抽出し、融合のための追加のメカニズムを使用して検出を取得します。この作業では、ビデオストリームのリアルタイム時空間アクションローカリゼーション用の統合CNNアーキテクチャであるYOWOを紹介します。 YOWOは、1つの評価でビデオクリップから時間的および空間的な情報を同時に抽出し、境界ボックスとアクションの確率を直接予測する2つのブランチを持つシングルステージアーキテクチャです。アーキテクチャ全体が統一されているため、エンドツーエンドで最適化できます。 YOWOアーキテクチャは、16フレームの入力クリップで毎秒34フレーム、8フレームの入力クリップで毎秒62フレームを高速に提供します。これは現在、時空間アクションローカリゼーションタスクの最速の最先端アーキテクチャです。 。驚くべきことに、YOWOはJ-HMDB-21とUCF101-24の以前の最先端の結果よりも優れており、それぞれ〜3%と〜12%の印象的な改善があります。コードと事前学習済みモデルを公開します。
Spatiotemporal action localization requires the incorporation of two sources of information into the designed architecture: (1) temporal information from the previous frames and (2) spatial information from the key frame. Current state-of-the-art approaches usually extract these information with separate networks and use an extra mechanism for fusion to get detections. In this work, we present YOWO, a unified CNN architecture for real-time spatiotemporal action localization in video streams. YOWO is a single-stage architecture with two branches to extract temporal and spatial information concurrently and predict bounding boxes and action probabilities directly from video clips in one evaluation. Since the whole architecture is unified, it can be optimized end-to-end. The YOWO architecture is fast providing 34 frames-per-second on 16-frames input clips and 62 frames-per-second on 8-frames input clips, which is currently the fastest state-of-the-art architecture on spatiotemporal action localization task. Remarkably, YOWO outperforms the previous state-of-the art results on J-HMDB-21 and UCF101-24 with an impressive improvement of ~3% and ~12%, respectively. We make our code and pretrained models publicly available.