ビデオでのランドマークベースの人間の行動の認識は、コンピュータービジョンでは困難な作業です。重要なステップの1つは、空間構造と時間ダイナミクスの識別機能を生成する一般的なアプローチを設計することです。このため、進化するランドマークデータを高次元のパスと見なし、非線形パスシグネチャテクニックを適用して、シーケンシャルイベントの表現力があり、堅牢で、非線形で、解釈可能な表現を提供します。未処理のパスから署名の特徴を抽出するのではなく、前処理ステップとしてパスの分解とパスの変換を提案します。パス分解は、高次元のパスを低次元のパスのコレクションに直線的に変換します。これらのパスの一部はポーズ空間にあり、他のパスは時間間隔のマルチスケールコレクションで定義されています。パス変換は、標準の方法で追加の座標でパスを装飾し、変換されたパスの切り捨てられた署名が追加の機能を公開できるようにします。空間表現の場合、シグネチャ変換を適用してポーズの分解から生じるパスをベクトル化し、時間表現の場合は、この進化するベクトル化を説明するために再度適用します。最後に、すべての機能がまとめられて、分類のための線形単一隠れ層完全接続ネットワークの入力ベクトルを構成します。 4つのデータセットの実験結果は、線形の浅いネットワークとDropconnectのみを備えた提案された機能セットが効果的であり、高度な深層ネットワークに匹敵する最先端の結果を達成し、その一方で解釈可能であることを実証しました。
Landmark-based human action recognition in videos is a challenging task in computer vision. One key step is to design a generic approach that generates discriminative features for the spatial structure and temporal dynamics. To this end, we regard the evolving landmark data as a high-dimensional path and apply non-linear path signature techniques to provide an expressive, robust, non-linear, and interpretable representation for the sequential events. We do not extract signature features from the raw path, rather we propose path disintegrations and path transformations as preprocessing steps. Path disintegrations turn a high-dimensional path linearly into a collection of lower-dimensional paths; some of these paths are in pose space while others are defined over a multiscale collection of temporal intervals. Path transformations decorate the paths with additional coordinates in standard ways to allow the truncated signatures of transformed paths to expose additional features. For spatial representation, we apply the signature transform to vectorize the paths that arise out of pose disintegration, and for temporal representation, we apply it again to describe this evolving vectorization. Finally, all the features are collected together to constitute the input vector of a linear single-hidden-layer fully-connected network for classification. Experimental results on four datasets demonstrated that the proposed feature set with only a linear shallow network and Dropconnect is effective and achieves comparable state-of-the-art results to the advanced deep networks, and meanwhile, is capable of interpretation.