arXiv reaDer
PASS:個人の再識別のための部分認識自己監視事前トレーニング
PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification
人物再識別(ReID)では、ごく最近の研究で、ラベルのない人物画像でのモデルの事前トレーニングがImageNetよりもはるかに優れていることが検証されています。ただし、これらの研究では、画像分類用に設計された既存の自己監視学習(SSL)手法を、フレームワークに適応させることなくReIDに直接適用しています。これらのSSLメソッドは、ローカルビュー(たとえば、赤いTシャツ、青いショートパンツ)の出力をグローバルビューの出力と同時に一致させ、多くの詳細を失います。本論文では、ReID固有の事前トレーニング方法であるPart-Aware Self-Supervised pre-training(PASS)を提案します。これは、詳細な情報を提供するためのパーツレベルの機能を生成でき、ReIDにより適しています。 PASSは画像をいくつかのローカルエリアに分割し、各エリアからランダムに切り取られたローカルビューには、特定の学習可能な[PART]トークンが割り当てられます。一方、すべてのローカルエリアの[PART]もグローバルビューに追加されます。 PASSは、同じ[PART]のローカルビューとグローバルビューの出力を一致させることを学習します。つまり、ローカルエリアから学習したローカルビューの[PART]は、グローバルビューから学習した対応する[PART]とのみ一致します。その結果、各[PART]は画像の特定のローカル領域に焦点を合わせ、この領域の詳細な情報を抽出できます。実験によると、PASSはさまざまなReIDタスクでMarket1501とMSMT17に新しい最先端のパフォーマンスを設定します。たとえば、PASSによって事前トレーニングされたバニラViT-S / 16は、Market1501で92.2%/ 90.2%/ 88.5%のmAP精度を達成します。監視対象/UDA/USLReID。コードはhttps://github.com/CASIA-IVA-Lab/PASS-reIDで入手できます。
In person re-identification (ReID), very recent researches have validated pre-training the models on unlabelled person images is much better than on ImageNet. However, these researches directly apply the existing self-supervised learning (SSL) methods designed for image classification to ReID without any adaption in the framework. These SSL methods match the outputs of local views (e.g., red T-shirt, blue shorts) to those of the global views at the same time, losing lots of details. In this paper, we propose a ReID-specific pre-training method, Part-Aware Self-Supervised pre-training (PASS), which can generate part-level features to offer fine-grained information and is more suitable for ReID. PASS divides the images into several local areas, and the local views randomly cropped from each area are assigned with a specific learnable [PART] token. On the other hand, the [PART]s of all local areas are also appended to the global views. PASS learns to match the output of the local views and global views on the same [PART]. That is, the learned [PART] of the local views from a local area is only matched with the corresponding [PART] learned from the global views. As a result, each [PART] can focus on a specific local area of the image and extracts fine-grained information of this area. Experiments show PASS sets the new state-of-the-art performances on Market1501 and MSMT17 on various ReID tasks, e.g., vanilla ViT-S/16 pre-trained by PASS achieves 92.2%/90.2%/88.5% mAP accuracy on Market1501 for supervised/UDA/USL ReID. Our codes are available at https://github.com/CASIA-IVA-Lab/PASS-reID.
updated: Wed Jul 20 2022 03:43:24 GMT+0000 (UTC)
published: Tue Mar 08 2022 08:54:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト