arXiv reaDer
TransReID:Transformerベースのオブジェクトの再識別
TransReID: Transformer-based Object Re-Identification
堅牢な特徴表現の抽出は、オブジェクトの再識別(ReID)における重要な課題の1つです。畳み込みニューラルネットワーク(CNN)ベースの方法は大きな成功を収めていますが、一度に1つのローカル近傍のみを処理し、畳み込みおよびダウンサンプリング演算子(たとえば、プーリングおよびストライド畳み込み)によって引き起こされる詳細に関する情報の損失に悩まされます。これらの制限を克服するために、TransReIDという名前の純粋なトランスベースのオブジェクトReIDフレームワークを提案します。具体的には、最初に画像を一連のパッチとしてエンコードし、いくつかの重要な改善を加えたトランスフォーマーベースの強力なベースラインを構築します。これにより、CNNベースの方法でいくつかのReIDベンチマークで競争力のある結果が得られます。トランスフォーマーのコンテキストで堅牢な機能学習をさらに強化するために、2つの新しいモジュールが慎重に設計されています。 (i)ジグソーパッチモジュール(JPM)は、シフトおよびパッチシャッフル操作を介してパッチ埋め込みを再配置するために提案されています。これにより、識別能力が向上し、カバレッジがより多様化された堅牢な機能が生成されます。 (ii)サイド情報埋め込み(SIE)は、これらの非視覚的な手がかりを組み込むために学習可能な埋め込みをプラグインすることにより、カメラ/ビューのバリエーションに対する機能の偏りを軽減するために導入されました。私たちの知る限り、これはReID研究に純粋な変圧器を採用した最初の作業です。 TransReIDの実験結果は非常に有望であり、人と車両の両方のReIDベンチマークで最先端のパフォーマンスを実現します。
Extracting robust feature representation is one of the key challenges in object re-identification (ReID). Although convolution neural network (CNN)-based methods have achieved great success, they only process one local neighborhood at a time and suffer from information loss on details caused by convolution and downsampling operators (e.g. pooling and strided convolution). To overcome these limitations, we propose a pure transformer-based object ReID framework named TransReID. Specifically, we first encode an image as a sequence of patches and build a transformer-based strong baseline with a few critical improvements, which achieves competitive results on several ReID benchmarks with CNN-based methods. To further enhance the robust feature learning in the context of transformers, two novel modules are carefully designed. (i) The jigsaw patch module (JPM) is proposed to rearrange the patch embeddings via shift and patch shuffle operations which generates robust features with improved discrimination ability and more diversified coverage. (ii) The side information embeddings (SIE) is introduced to mitigate feature bias towards camera/view variations by plugging in learnable embeddings to incorporate these non-visual clues. To the best of our knowledge, this is the first work to adopt a pure transformer for ReID research. Experimental results of TransReID are superior promising, which achieve state-of-the-art performance on both person and vehicle ReID benchmarks.
updated: Fri Mar 26 2021 15:40:42 GMT+0000 (UTC)
published: Mon Feb 08 2021 17:33:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト