Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Grained Action Detection
 きめ細かいアクション検出は、ロボット工学および人間とコンピューターの相互作用における多数のアプリケーションの重要なタスクです。既存の方法では、通常、ローカルの時空間的特徴の抽出と、その後の長期的な依存関係をキャプチャするための時間的モデリングを含む2段階のアプローチを利用します。最近の論文のほとんどは後者(長時間モデリング)に焦点を当てていますが、ここでは、きめの細かい動きをより効率的にモデリングできる機能の作成に焦点を当てています。受容野の変化を利用し、局所コヒーレンシ制約を適用して動き情報を効果的にキャプチャする、新規の局所的に一貫した変形可能な畳み込みを提案します。私たちのモデルは、(独立した空間的および時間的ストリームを使用する代わりに)時空間的特徴を共同で学習します。時間成分は、ピクセル空間ではなく特徴空間から学習されます。オプティカルフロー。作成された機能は、他の長期的なモデリングネットワークと組み合わせて柔軟に使用できます。 ST-CNN、DilatedTCN、およびED-TCN。全体として、提案されたアプローチは、2つのきめの細かいアクションデータセットである50サラダとGTEAで元の長期モデルを確実に上回り、それぞれ80.22%と75.39%のF1スコアを達成します。
Fine-grained action detection is an important task with numerous applications in robotics and human-computer interaction. Existing methods typically utilize a two-stage approach including extraction of local spatio-temporal features followed by temporal modeling to capture long-term dependencies. While most recent papers have focused on the latter (long-temporal modeling), here, we focus on producing features capable of modeling fine-grained motion more efficiently. We propose a novel locally-consistent deformable convolution, which utilizes the change in receptive fields and enforces a local coherency constraint to capture motion information effectively. Our model jointly learns spatio-temporal features (instead of using independent spatial and temporal streams). The temporal component is learned from the feature space instead of pixel space, e.g. optical flow. The produced features can be flexibly used in conjunction with other long-temporal modeling networks, e.g. ST-CNN, DilatedTCN, and ED-TCN. Overall, our proposed approach robustly outperforms the original long-temporal models on two fine-grained action datasets: 50 Salads and GTEA, achieving F1 scores of 80.22% and 75.39% respectively.
