arXiv reaDer
遮蔽された人物の再識別のための機能補完トランスフォーマー
Feature Completion Transformer for Occluded Person Re-identification
閉塞者の再識別 (Re-ID) は、閉塞者の破壊による困難な問題です。ほとんどの既存の方法は、いくつかの事前情報を通じて目に見える人体部分に焦点を当てています。ただし、補完的なオクルージョンが発生すると、オクルードされた領域のフィーチャがマッチングに干渉し、パフォーマンスに深刻な影響を与える可能性があります。この論文では、オクルードされた領域を破棄するほとんどの以前の研究とは異なり、特徴空間内のオクルードされた部分のセマンティック情報を暗黙的に補完する機能補完トランスフォーマー (FCFormer) を提案します。具体的には、Occlusion Instance Augmentation (OIA) が提案され、全体的な画像上で実際の多様なオクルージョン状況をシミュレートします。これらの拡張画像は、トレーニング セット内のオクルージョン サンプルの量を増やすだけでなく、全体的な画像とのペアも形成します。その後、共有エンコーダーを備えたデュアルストリームアーキテクチャが提案され、入力のペアからペアの識別機能が学習されます。追加のセマンティック情報がなくても、オクルード ホリスティック フィーチャのサンプルとラベルのペアを自動的に作成できます。次に、Feature Completion Decoder (FCD) は、学習可能なトークンを使用して、自己生成されたオクルードされた機能から可能な情報を集約することにより、オクルードされた領域の機能を補完するように設計されています。最後に、クロス ハード トリプレット (CHT) 損失を提案して、フィーチャの補完と同じ ID でのフィーチャの抽出との間のギャップをさらに埋めます。さらに、Feature Completion Consistency (FC^2) 損失が導入され、生成された完了機能の分布が実際の全体的な機能の分布により近くなります。 5 つの困難なデータセットに対する広範な実験により、提案された FCFormer が優れたパフォーマンスを達成し、閉塞されたデータセットで最先端の方法を大幅に上回ることが実証されました。
Occluded person re-identification (Re-ID) is a challenging problem due to the destruction of occluders. Most existing methods focus on visible human body parts through some prior information. However, when complementary occlusions occur, features in occluded regions can interfere with matching, which affects performance severely. In this paper, different from most previous works that discard the occluded region, we propose a Feature Completion Transformer (FCFormer) to implicitly complement the semantic information of occluded parts in the feature space. Specifically, Occlusion Instance Augmentation (OIA) is proposed to simulates real and diverse occlusion situations on the holistic image. These augmented images not only enrich the amount of occlusion samples in the training set, but also form pairs with the holistic images. Subsequently, a dual-stream architecture with a shared encoder is proposed to learn paired discriminative features from pairs of inputs. Without additional semantic information, an occluded-holistic feature sample-label pair can be automatically created. Then, Feature Completion Decoder (FCD) is designed to complement the features of occluded regions by using learnable tokens to aggregate possible information from self-generated occluded features. Finally, we propose the Cross Hard Triplet (CHT) loss to further bridge the gap between complementing features and extracting features under the same ID. In addition, Feature Completion Consistency (FC^2) loss is introduced to help the generated completion feature distribution to be closer to the real holistic feature distribution. Extensive experiments over five challenging datasets demonstrate that the proposed FCFormer achieves superior performance and outperforms the state-of-the-art methods by significant margins on occluded datasets.
updated: Fri Mar 03 2023 01:12:57 GMT+0000 (UTC)
published: Fri Mar 03 2023 01:12:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト