個人の再識別は、複数のセンサーにわたる監視の重要な課題です。視覚認識のための強力な深層学習モデル、安価なRGB-Dカメラ、自動運転車などのセンサーが豊富なモバイルロボットプラットフォームの出現に促されて、RGB間の人のクロスモーダル再識別の比較的未踏の問題を調査します(カラー)および深度画像。異なるセンサーモダリティ間でのデータ分布のかなりの相違は、明確な視点、オクルージョン、ポーズと照明の変化などの一般的な問題に追加の課題をもたらします。 RGBと赤外線にわたる再識別を調査した研究もありますが、オブジェクト検出タスクでRGBから深度への転移学習の成功からインスピレーションを得ています。私たちの主な貢献は、堅牢な人物の再識別のためのクロスモーダル蒸留の新しい方法です。これは、RGB画像と深度画像の両方で人物の外観の共有特徴表現空間を学習します。さらに、1つのモダリティからのゲーティング信号が他のモダリティの最も判別的なCNNフィルターを動的にアクティブ化できるクロスモーダル注意メカニズムを提案します。提案された蒸留方法は、他のクロスドメイン再識別タスクのために提案された従来の深層学習アプローチと比較されます。公開されているBIWIおよびRobotPKUデータセットで得られた結果は、提案された方法が最先端のアプローチを平均平均精度(mAP)で最大16.1%大幅に上回ることができることを示しており、蒸留パラダイムの利点を示しています。実験結果はまた、クロスモーダル注意を使用することにより、提案された蒸留方法および関連する最先端のアプローチに関して認識精度を大幅に改善できることを示しています。
Person re-identification is a key challenge for surveillance across multiple sensors. Prompted by the advent of powerful deep learning models for visual recognition, and inexpensive RGB-D cameras and sensor-rich mobile robotic platforms, e.g. self-driving vehicles, we investigate the relatively unexplored problem of cross-modal re-identification of persons between RGB (color) and depth images. The considerable divergence in data distributions across different sensor modalities introduces additional challenges to the typical difficulties like distinct viewpoints, occlusions, and pose and illumination variation. While some work has investigated re-identification across RGB and infrared, we take inspiration from successes in transfer learning from RGB to depth in object detection tasks. Our main contribution is a novel method for cross-modal distillation for robust person re-identification, which learns a shared feature representation space of person's appearance in both RGB and depth images. In addition, we propose a cross-modal attention mechanism where the gating signal from one modality can dynamically activate the most discriminant CNN filters of the other modality. The proposed distillation method is compared to conventional and deep learning approaches proposed for other cross-domain re-identification tasks. Results obtained on the public BIWI and RobotPKU datasets indicate that the proposed method can significantly outperform the state-of-the-art approaches by up to 16.1% in mean Average Precision (mAP), demonstrating the benefit of the distillation paradigm. The experimental results also indicate that using cross-modal attention allows to improve recognition accuracy considerably with respect to the proposed distillation method and relevant state-of-the-art approaches.