arXiv reaDer
Global Temporal Representation based CNNs for Infrared Action Recognition
  赤外線による人間の行動の認識には多くの利点があります。つまり、照明の変化、外観の変動、および影の影響を受けません。赤外線アクション認識の既存の方法は、空間的またはローカルな時間情報に基づいていますが、ビデオ全体の身体部分の動きをよりよく説明できるグローバルな時間情報は考慮されていません。この手紙では、オプティカルフロースタック差分画像(OFSDI)という名前の新しいグローバルな時間表現を提案し、ローカル、グローバル、および空間の時間情報を一緒に考慮することで、赤外線アクションデータからロバストで識別的な特徴を抽出します。赤外線アクションデータセットのサイズが小さいため、最初にローカル、空間、およびグローバルの時間ストリームにそれぞれ畳み込みニューラルネットワークを適用して、分類器を直接トレーニングするのではなく、生データから効率的な畳み込み特徴マップを取得します。次に、これらの畳み込み特徴マップは、軌道制約付きプーリングにより、3ストリーム軌道でプールされた深い畳み込み記述子と呼ばれる効果的な記述子に集約されます。さらに、局所性制約付き線形符号化(LLC)メソッドを使用して、これらの機能の堅牢性を向上させます。これらの機能により、線形サポートベクターマシン(SVM)が採用され、スキーム内のアクションデータが分類されます。赤外線アクション認識データセットInfARおよびNTU RGB + Dで実験を行います。実験結果は、提案されたアプローチが赤外線アクション認識のための代表的な最先端の手作りの機能と深層学習機能ベースの方法より優れていることを示しています。
Infrared human action recognition has many advantages, i.e., it is insensitive to illumination change, appearance variability, and shadows. Existing methods for infrared action recognition are either based on spatial or local temporal information, however, the global temporal information, which can better describe the movements of body parts across the whole video, is not considered. In this letter, we propose a novel global temporal representation named optical-flow stacked difference image (OFSDI) and extract robust and discriminative feature from the infrared action data by considering the local, global, and spatial temporal information together. Due to the small size of the infrared action dataset, we first apply convolutional neural networks on local, spatial, and global temporal stream respectively to obtain efficient convolutional feature maps from the raw data rather than train a classifier directly. Then these convolutional feature maps are aggregated into effective descriptors named three-stream trajectory-pooled deep-convolutional descriptors by trajectory-constrained pooling. Furthermore, we improve the robustness of these features by using the locality-constrained linear coding (LLC) method. With these features, a linear support vector machine (SVM) is adopted to classify the action data in our scheme. We conduct the experiments on infrared action recognition datasets InfAR and NTU RGB+D. The experimental results show that the proposed approach outperforms the representative state-of-the-art handcrafted features and deep learning features based methods for the infrared action recognition.
updated: Wed Sep 18 2019 08:52:35 GMT+0000 (UTC)
published: Wed Sep 18 2019 08:52:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト