RGB赤外線による人物の再識別は、新たなクロスモダリティ再識別タスクです。これは、RGB画像と赤外線画像の間に重大なモダリティの不一致があるため、非常に困難です。この作業では、モダリティ不変および識別表現の学習に向けたRGB赤外線人物の再識別のための新しいモダリティ適応混合および不変分解(MID)アプローチを提案します。 MIDは、ピクセルレベルでの固有のモダリティの不一致を軽減するために、RGB画像と赤外線画像の間に適切な混合モダリティ画像を生成するためのモダリティ適応型混合スキームを設計します。これは、モダリティ混合手順をマルコフ決定過程として定式化します。このプロセスでは、アクタークリティカルエージェントが、深層強化学習フレームワークの下で、クロスモダリティ画像の異なる領域間で動的およびローカル線形補間ポリシーを学習します。このようなポリシーは、より連続的な潜在空間でのモダリティの不変性を保証し、破損した混合モダリティサンプルによる多様体の侵入を回避します。さらに、モダリティの不一致にさらに対抗し、機能レベルで不変の視覚的セマンティクスを適用するために、MIDはモダリティ適応畳み込み分解を使用して、通常の畳み込みレイヤーをモダリティ固有の基本レイヤーとモダリティ共有係数レイヤーに分解します。 2つの挑戦的なベンチマークに関する広範な実験結果は、最先端の方法よりも優れたMIDのパフォーマンスを示しています。
RGB-infrared person re-identification is an emerging cross-modality re-identification task, which is very challenging due to significant modality discrepancy between RGB and infrared images. In this work, we propose a novel modality-adaptive mixup and invariant decomposition (MID) approach for RGB-infrared person re-identification towards learning modality-invariant and discriminative representations. MID designs a modality-adaptive mixup scheme to generate suitable mixed modality images between RGB and infrared images for mitigating the inherent modality discrepancy at the pixel-level. It formulates modality mixup procedure as Markov decision process, where an actor-critic agent learns dynamical and local linear interpolation policy between different regions of cross-modality images under a deep reinforcement learning framework. Such policy guarantees modality-invariance in a more continuous latent space and avoids manifold intrusion by the corrupted mixed modality samples. Moreover, to further counter modality discrepancy and enforce invariant visual semantics at the feature-level, MID employs modality-adaptive convolution decomposition to disassemble a regular convolution layer into modality-specific basis layers and a modality-shared coefficient layer. Extensive experimental results on two challenging benchmarks demonstrate superior performance of MID over state-of-the-art methods.