An Efficient Framework for Visible-Infrared Cross Modality Person Re-Identification
可視赤外線クロスモダリティ人物の再識別(VI-ReId)は、不十分な照明または暗い環境でのビデオ監視に不可欠なタスクです。可視ドメイン(ReId)での人物の再識別に関する最近の多くの研究にもかかわらず、VI-ReIdを特に扱った研究はほとんどありません。ポーズ/照明の変化、背景の乱雑さ、オクルージョンなど、ReIdとVI-ReIdの両方に共通の課題に加えて、VI-ReIdには、赤外線画像で色情報が利用できないため、追加の課題があります。その結果、VI-ReIdシステムのパフォーマンスは、通常、ReIdシステムのパフォーマンスよりも低くなります。この作業では、VI-ReIdのパフォーマンスを向上させる4ストリームフレームワークを提案します。入力画像の異なる表現を使用して、各ストリームで個別の深い畳み込みニューラルネットワークをトレーニングします。各ストリームから異なる補完的な機能を学習できると期待しています。私たちのフレームワークでは、グレースケールと赤外線の入力画像を使用して、最初のストリームでResNetをトレーニングします。 2番目のストリームでは、RGBと3チャンネルの赤外線画像(赤外線チャンネルを繰り返すことによって作成された)が使用されます。残りの2つのストリームでは、ローカルパターンマップを入力画像として使用します。これらのマップは、ローカルのゼルニケモーメント変換を使用して生成されます。ローカルパターンマップは、3番目のストリームのグレースケールおよび赤外線画像から、最後のストリームのRGBおよび3チャンネルの赤外線画像から取得されます。後処理に再ランキングアルゴリズムを採用することにより、提案されたフレームワークのパフォーマンスを向上させます。私たちの結果は、提案されたフレームワークが、ランク-1 / mAPをSYSU-MM01データセットで29.79%/ 30.91%向上させ、RegDBデータセットで9.73%/ 16.36%向上させることにより、現在の最先端技術を大幅に上回っていることを示しています。
Visible-infrared cross-modality person re-identification (VI-ReId) is an essential task for video surveillance in poorly illuminated or dark environments. Despite many recent studies on person re-identification in the visible domain (ReId), there are few studies dealing specifically with VI-ReId. Besides challenges that are common for both ReId and VI-ReId such as pose/illumination variations, background clutter and occlusion, VI-ReId has additional challenges as color information is not available in infrared images. As a result, the performance of VI-ReId systems is typically lower than that of ReId systems. In this work, we propose a four-stream framework to improve VI-ReId performance. We train a separate deep convolutional neural network in each stream using different representations of input images. We expect that different and complementary features can be learned from each stream. In our framework, grayscale and infrared input images are used to train the ResNet in the first stream. In the second stream, RGB and three-channel infrared images (created by repeating the infrared channel) are used. In the remaining two streams, we use local pattern maps as input images. These maps are generated utilizing local Zernike moments transformation. Local pattern maps are obtained from grayscale and infrared images in the third stream and from RGB and three-channel infrared images in the last stream. We improve the performance of the proposed framework by employing a re-ranking algorithm for post-processing. Our results indicate that the proposed framework outperforms current state-of-the-art with a large margin by improving Rank-1/mAP by 29.79%/30.91% on SYSU-MM01 dataset, and by 9.73%/16.36% on RegDB dataset.
updated: Sun Aug 02 2020 03:41:05 GMT+0000 (UTC)
published: Mon Jul 15 2019 13:32:15 GMT+0000 (UTC)
