arXiv reaDer
Multimodal feature fusion for CNN-based gait recognition: an empirical comparison
 歩き方(つまり、歩き方)に基づくビデオでの人の識別は、非侵襲的アプローチを使用したコンピュータービジョンの関連タスクです。標準的なアプローチと現在のアプローチでは、通常、画像から抽出された被験者のバイナリエネルギーマップのシーケンスから歩行シグネチャを導き出しますが、このプロセスでは大量の非定常ノイズが発生し、その結果、有効性が調整されます。対照的に、このホワイトペーパーでは、未加工のピクセル、またはそれらから派生した単純な関数に焦点を当て、高度な学習手法を使用して関連する特徴を抽出します。したがって、広く採用されている2つのデータセットであるTUM-GAIDとCASIA-Bで、3つの異なるモダリティ(グレーピクセル、オプティカルフローチャネル、深度マップ)を使用して、さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャの比較研究を示します。さらに、各種類のモダリティから得られた情報を組み合わせるために使用される、異なる初期および後期融合法の比較研究を実施します。私たちの実験結果は、(i)同等またはより良い結果が得られるため、従来の最先端のシルエットベースの機能(例:GEI)と比較して、生のピクセル値が競合入力モダリティを表すことを示唆しています。 (ii)オプティカルフローおよび深度マップからの情報と生のピクセル情報の融合により、以前に報告された結果よりも数倍小さい画像解像度で歩行認識タスクに関する最新の結果を得ることができます。 (iii)CNNアーキテクチャの選択と設計は、最先端の結果と貧弱な結果との違いを生む重要なポイントです。
People identification in video based on the way they walk (i.e. gait) is a relevant task in computer vision using a non-invasive approach. Standard and current approaches typically derive gait signatures from sequences of binary energy maps of subjects extracted from images, but this process introduces a large amount of non-stationary noise, thus, conditioning their efficacy. In contrast, in this paper we focus on the raw pixels, or simple functions derived from them, letting advanced learning techniques to extract relevant features. Therefore, we present a comparative study of different Convolutional Neural Network (CNN) architectures by using three different modalities (i.e. gray pixels, optical flow channels and depth maps) on two widely-adopted and challenging datasets: TUM-GAID and CASIA-B. In addition, we perform a comparative study between different early and late fusion methods used to combine the information obtained from each kind of modalities. Our experimental results suggest that (i) the raw pixel values represent a competitive input modality, compared to the traditional state-of-the-art silhouette-based features (e.g. GEI), since equivalent or better results are obtained; (ii) the fusion of the raw pixel information with information from optical flow and depth maps allows to obtain state-of-the-art results on the gait recognition task with an image resolution several times smaller than the previously reported results; and, (iii) the selection and the design of the CNN architecture are critical points that can make a difference between state-of-the-art results or poor ones.
updated: Thu Feb 20 2020 12:27:04 GMT+0000 (UTC)
published: Tue Jun 19 2018 11:36:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト