HAT: Hierarchical Aggregation Transformers for Person Re-identification
最近、深い畳み込みニューラルネットワーク(CNN)の進歩に伴い、個人の再識別(Re-ID)はさまざまなアプリケーションで大きな成功を収めています。ただし、CNNの受容野が限られているため、重複していないカメラの下にいる人のグローバルビューで識別表現を抽出することは依然として困難です。一方、トランスフォーマーは、空間データとシーケンシャルデータの長距離依存関係をモデル化する強力な能力を示しています。この作業では、CNNとトランスフォーマーの両方を活用し、高性能の画像ベースの人物Re-ID用の階層型集約トランスフォーマー(HAT)という新しい学習フレームワークを提案します。この目標を達成するために、まず、CNNバックボーンから階層的特徴を繰り返し集約するDeeply Supervised Aggregation(DSA)を提案します。 DSAは、マルチグラニュラリティの監視により、以前の方法とは大きく異なる、人物検索のマルチスケール機能を強化できます。次に、トランスフォーマーベースの機能キャリブレーション(TFC)を導入して、低レベルの詳細情報を高レベルのセマンティック情報のグローバルプライアとして統合します。提案されたTFCは、階層機能の各レベルに挿入されるため、パフォーマンスが大幅に向上します。私たちの知る限り、この作業は、画像ベースの人物のRe-IDにCNNとトランスフォーマーの両方を利用する最初の作業です。 4つの大規模なRe-IDベンチマークに関する包括的な実験は、私たちの方法がいくつかの最先端の方法よりも優れた結果を示すことを示しています。コードはでリリースされています。
Recently, with the advance of deep Convolutional Neural Networks (CNNs), person Re-Identification (Re-ID) has witnessed great success in various applications. However, with limited receptive fields of CNNs, it is still challenging to extract discriminative representations in a global view for persons under non-overlapped cameras. Meanwhile, Transformers demonstrate strong abilities of modeling long-range dependencies for spatial and sequential data. In this work, we take advantages of both CNNs and Transformers, and propose a novel learning framework named Hierarchical Aggregation Transformer (HAT) for image-based person Re-ID with high performance. To achieve this goal, we first propose a Deeply Supervised Aggregation (DSA) to recurrently aggregate hierarchical features from CNN backbones. With multi-granularity supervisions, the DSA can enhance multi-scale features for person retrieval, which is very different from previous methods. Then, we introduce a Transformer-based Feature Calibration (TFC) to integrate low-level detail information as the global prior for high-level semantic information. The proposed TFC is inserted to each level of hierarchical features, resulting in great performance improvements. To our best knowledge, this work is the first to take advantages of both CNNs and Transformers for image-based person Re-ID. Comprehensive experiments on four large-scale Re-ID benchmarks demonstrate that our method shows better results than several state-of-the-art methods. The code is released at
updated: Wed Jul 14 2021 01:42:35 GMT+0000 (UTC)
published: Tue Jul 13 2021 09:34:54 GMT+0000 (UTC)
