arXiv reaDer
エンドツーエンドの個人検索用のカスケードトランスフォーマー
Cascade Transformers for End-to-End Person Search
人物検索の目的は、シーン画像のギャラリーセットからターゲット人物を特定することです。これは、大規模なバリエーション、ポーズ/視点の変更、およびオクルージョンのために非常に困難です。本論文では、エンドツーエンドの人の検索のためのカスケード閉塞注意変換器(COAT)を提案します。私たちの3段階のカスケード設計は、最初の段階で人を検出することに焦点を当てていますが、後の段階では、人の検出と再識別のために表現を同時にかつ段階的に改良します。各段階で、閉塞されたアテンショントランスフォーマーは、ユニオンのしきい値を超えるより緊密な交差を適用し、ネットワークに粗いポーズから細かいポーズ/スケール不変特徴を学習させます。一方、ある人のトークンを他の人や背景と区別するために、各検出の隠れた注意を計算します。このようにして、トークンレベルで関心のある人物を遮る他のオブジェクトの効果をシミュレートします。包括的な実験を通じて、2つのベンチマークデータセットで最先端のパフォーマンスを達成することにより、この方法の利点を示します。
The goal of person search is to localize a target person from a gallery set of scene images, which is extremely challenging due to large scale variations, pose/viewpoint changes, and occlusions. In this paper, we propose the Cascade Occluded Attention Transformer (COAT) for end-to-end person search. Our three-stage cascade design focuses on detecting people in the first stage, while later stages simultaneously and progressively refine the representation for person detection and re-identification. At each stage the occluded attention transformer applies tighter intersection over union thresholds, forcing the network to learn coarse-to-fine pose/scale invariant features. Meanwhile, we calculate each detection's occluded attention to differentiate a person's tokens from other people or the background. In this way, we simulate the effect of other objects occluding a person of interest at the token-level. Through comprehensive experiments, we demonstrate the benefits of our method by achieving state-of-the-art performance on two benchmark datasets.
updated: Thu Mar 17 2022 22:42:12 GMT+0000 (UTC)
published: Thu Mar 17 2022 22:42:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト