可視赤外線による人物の再識別は、RGB センサーと IR センサーの分散ネットワーク経由でキャプチャされた同じ個人の画像を取得しようとします。いくつかの VI ReID アプローチは、V モダリティと I モダリティの両方を直接統合して、共有表現空間内で人を識別します。ただし、V モダリティと I モダリティの間のデータ分布に大きなギャップがあることを考えると、クロスモーダル VI ReID は依然として課題です。最近のアプローチの中には、V モダリティと I モダリティを橋渡しできる中間空間を活用することで一般化を改善するものもありますが、そのような有益なドメインのデータを選択または生成するには効果的な方法が必要です。この論文では、V モダリティと I モダリティの間の識別情報を橋渡しする仮想ドメインを適応および生成するために、特権中間情報の適応生成トレーニング アプローチを導入します。 AGPI^2 の背後にある主な動機は、追加情報を提供する特権イメージを生成することによって、深い VI ReID バックボーンのトレーニングを強化することです。これらの特権的な画像は、元の V または I モダリティだけでは簡単にアクセスできない共有の識別特徴をキャプチャします。この目標に向けて、非線形生成モジュールは敵対的な目的でトレーニングされ、I ドメインに対するより小さなドメイン シフトで V 画像を中間空間に変換します。一方、AGPI^2 内の埋め込みモジュールは、V 画像と生成された画像の両方に同様の特徴を生成し、すべてのモダリティに共通する特徴の抽出を促進することを目的としています。これらの貢献に加えて、AGPI^2 は中間画像を適応させるための敵対的目標を採用しています。これは、V ドメインと I ドメイン間の大きなドメイン シフトに対処するための非モダリティ固有の空間を作成する上で重要な役割を果たします。困難な VI ReID データセットに対して行われた実験結果は、AGPI^2 が推論中に追加の計算リソースを使用せずにマッチング精度を向上させることを示しています。
Visible-infrared person re-identification seeks to retrieve images of the same individual captured over a distributed network of RGB and IR sensors. Several V-I ReID approaches directly integrate both V and I modalities to discriminate persons within a shared representation space. However, given the significant gap in data distributions between V and I modalities, cross-modal V-I ReID remains challenging. Some recent approaches improve generalization by leveraging intermediate spaces that can bridge V and I modalities, yet effective methods are required to select or generate data for such informative domains. In this paper, the Adaptive Generation of Privileged Intermediate Information training approach is introduced to adapt and generate a virtual domain that bridges discriminant information between the V and I modalities. The key motivation behind AGPI^2 is to enhance the training of a deep V-I ReID backbone by generating privileged images that provide additional information. These privileged images capture shared discriminative features that are not easily accessible within the original V or I modalities alone. Towards this goal, a non-linear generative module is trained with an adversarial objective, translating V images into intermediate spaces with a smaller domain shift w.r.t. the I domain. Meanwhile, the embedding module within AGPI^2 aims to produce similar features for both V and generated images, encouraging the extraction of features that are common to all modalities. In addition to these contributions, AGPI^2 employs adversarial objectives for adapting the intermediate images, which play a crucial role in creating a non-modality-specific space to address the large domain shifts between V and I domains. Experimental results conducted on challenging V-I ReID datasets indicate that AGPI^2 increases matching accuracy without extra computational resources during inference.