arXiv reaDer
バイストリーム生成モデルによる一般化可能な人物の再識別に向けて
Towards Generalizable Person Re-identification with a Bi-stream Generative Model
一般化可能な個人の再識別(re-ID)は、目に見えないデータドメインでの強力な適応機能により、ますます注目を集めています。ただし、既存のソリューションでは、交差するカメラ(たとえば、照明と解像度の違い)または歩行者の不整合(たとえば、視点とポーズの不一致)のいずれかを無視することが多く、新しいドメインに適応すると、一般化機能が低下しやすくなります。この論文では、これらの困難を次のように定式化します。1)カメラ-カメラ(CC)問題。これは、さまざまなカメラによって引き起こされるさまざまな人間の外観の変化を示します。 2)Camera-Person(CP)の問題。これは、異なるカメラの視点または変化するポーズの下で同じIDの人によって引き起こされた歩行者のずれを示します。上記の問題を解決するために、バイストリーム生成モデル(BGM)を提案して、カメラ不変のグローバル機能と歩行者に合わせたローカル機能を融合したきめ細かい表現を学習します。これには、エンコードネットワークと2つのストリームデコードサブネットワークが含まれます。 。元の歩行者画像に導かれ、1つのストリームを使用して、カメラ間の干渉要因をフィルタリングすることにより、CC問題のカメラ不変のグローバル機能を学習します。 CP問題の場合、別のストリームは、情報が完全に密に意味的に整列されたパーツマップを使用して、歩行者整列のための歩行者整列ローカルフィーチャを学習します。さらに、歩行者のアライメントに対する欠落したパーツの影響を減らすために、パーツ加重損失関数が提示されます。広範な実験は、ドメイン一般化設定とクロスドメイン設定を含む、大規模な一般化可能なre-IDベンチマークで、私たちの方法が最先端の方法よりも優れていることを示しています。
Generalizable person re-identification (re-ID) has attracted growing attention due to its powerful adaptation capability in the unseen data domain. However, existing solutions often neglect either crossing cameras (e.g., illumination and resolution differences) or pedestrian misalignments (e.g., viewpoint and pose discrepancies), which easily leads to poor generalization capability when adapted to the new domain. In this paper, we formulate these difficulties as: 1) Camera-Camera (CC) problem, which denotes the various human appearance changes caused by different cameras; 2) Camera-Person (CP) problem, which indicates the pedestrian misalignments caused by the same identity person under different camera viewpoints or changing pose. To solve the above issues, we propose a Bi-stream Generative Model (BGM) to learn the fine-grained representations fused with camera-invariant global feature and pedestrian-aligned local feature, which contains an encoding network and two stream decoding sub-networks. Guided by original pedestrian images, one stream is employed to learn a camera-invariant global feature for the CC problem via filtering cross-camera interference factors. For the CP problem, another stream learns a pedestrian-aligned local feature for pedestrian alignment using information-complete densely semantically aligned part maps. Moreover, a part-weighted loss function is presented to reduce the influence of missing parts on pedestrian alignment. Extensive experiments demonstrate that our method outperforms the state-of-the-art methods on the large-scale generalizable re-ID benchmarks, involving domain generalization setting and cross-domain setting.
updated: Sun Jun 19 2022 09:18:25 GMT+0000 (UTC)
published: Sun Jun 19 2022 09:18:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト