従来のアクション認識モデルは、2D透視画像のパラダイムを中心に構築されています。洗練された時系列モデルがこの分野を前進させましたが、多くの情報はまだドメインを2Dに限定することにより活用されていません。この作業では、ボクセル化された3Dベクトル場としての動きの新しい表現を紹介し、それを使用してアクション認識ネットワークのパフォーマンスを改善する方法を示します。この体積表現は、3D CNNに自然に適合し、これらのネットワークのトレーニング中に面外データ増大技術を可能にします。 RGB-Dビデオからのこの表現の構築と推論の両方をリアルタイムで実行できます。この表現を使用して、定義された両方の評価指標で最先端のパフォーマンスを発揮するオープンソースNTU RGB + Dデータセットのネットワーク設計で、この表現を使用して優れた結果を示します。さらに、面外増強技術が視点不変性を作成し、この表現を使用して訓練されたモデルが見えないカメラ角度に一般化できるようにする方法を実験的に示します。コードは、https://github.com/mpeven/ntu_rgbから入手できます。
Traditional action recognition models are constructed around the paradigm of 2D perspective imagery. Though sophisticated time-series models have pushed the field forward, much of the information is still not exploited by confining the domain to 2D. In this work, we introduce a novel representation of motion as a voxelized 3D vector field and demonstrate how it can be used to improve performance of action recognition networks. This volumetric representation is a natural fit for 3D CNNs, and allows out-of-plane data augmentation techniques during training of these networks. Both the construction of this representation from RGB-D video and inference can be run in real time. We demonstrate superior results using this representation with our network design on the open-source NTU RGB+D dataset where it outperforms state-of-the-art on both of the defined evaluation metrics. Furthermore, we experimentally show how the out-of-plane augmentation techniques create viewpoint invariance and allow the model trained using this representation to generalize to unseen camera angles. Code is available here: https://github.com/mpeven/ntu_rgb.