遮蔽された人物の再識別 (ReID) は、遮蔽物からの汚染による困難な問題であり、既存のアプローチは、人体のキーポイント、セマンティックセグメンテーションなどの事前知識の手がかりを使用して問題に対処します。オクルーダーとしての他の人間。この論文では、主にスパースエンコーダ、グローバルおよびローカル機能ランキングモジュール、および機能統合デコーダで構成される、明示的な人間構造解析を回避するための機能プルーニングおよび統合 (FPC) フレームワークを提案します。具体的には、スパース エンコーダーは、以前の人間の形状情報に依存するのではなく、クラス トークンの注意内の相関関係のみに従って、重要度の低い画像トークン (主にバックグラウンド ノイズとオクルーダーに関連する) をドロップします。その後、ランキング ステージでは、スパース エンコーダーによって生成された保存されたトークンに依存して、イメージとパッチ レベルの組み合わせの類似性を測定することにより、事前トレーニング済みのギャラリー メモリから k 最近傍を識別します。最後に、特徴統合モジュールを使用して、ノイズやオクルージョンからの妨害を無視しながら、重要な情報を回復するために識別された近隣を使用して、刈り込まれた特徴を補償します。実験結果は、オクルードされた、部分的で全体的な Re-ID データセットに対する提案されたフレームワークの有効性を示しています。特に、私たちの方法は、挑戦的な Occluded-Duke データセットで少なくとも 8.6% の mAP と 6.0% のランク 1 精度で最先端の結果を上回っています。
Occluded person re-identification (ReID) is a challenging problem due to contamination from occluders, and existing approaches address the issue with prior knowledge cues, eg human body key points, semantic segmentations and etc, which easily fails in the presents of heavy occlusion and other humans as occluders. In this paper, we propose a feature pruning and consolidation (FPC) framework to circumvent explicit human structure parse, which mainly consists of a sparse encoder, a global and local feature ranking module, and a feature consolidation decoder. Specifically, the sparse encoder drops less important image tokens (mostly related to background noise and occluders) solely according to correlation within the class token attention instead of relying on prior human shape information. Subsequently, the ranking stage relies on the preserved tokens produced by the sparse encoder to identify k-nearest neighbors from a pre-trained gallery memory by measuring the image and patch-level combined similarity. Finally, we use the feature consolidation module to compensate pruned features using identified neighbors for recovering essential information while disregarding disturbance from noise and occlusion. Experimental results demonstrate the effectiveness of our proposed framework on occluded, partial and holistic Re-ID datasets. In particular, our method outperforms state-of-the-art results by at least 8.6% mAP and 6.0% Rank-1 accuracy on the challenging Occluded-Duke dataset.