車両再識別(ReID)の文献では、パフォーマンスを向上させるために、ランドマーク、重要なパーツ、セマンティックセグメンテーションマスクなどの集中的な手動ラベルが必要になることがよくあります。このような追加情報は、車両の表現学習の一部として、局所的な幾何学的特徴を検出するのに役立ちます。対照的に、この論文では、余分なラベルのないランドマークとして幾何学的特徴を検出することを自動的に学習するという課題に対処することを目指しています。私たちの知る限りでは、私たちは、自己監視の注意に基づいて、車両ReIDの識別可能な幾何学的特徴をうまく学習した最初の人です。具体的には、(1)画像特徴抽出のバックボーンとしてのグローバルブランチ、(2)アテンションマスクを生成するためのアテンションブランチ、(3)セルフの3つのブランチで構成されるエンドツーエンドのトレーニング可能なディープネットワークアーキテクチャを実装します。幾何学的特徴を見つけるために回転した画像で注意学習を正規化するための教師ありブランチ。私たちのネットワーク設計は、当然、エンドツーエンドのマルチタスク共同最適化につながります。車両ReIDの3つのベンチマークデータセット、つまりVeRi-776、CityFlow-ReID、VehicleIDで包括的な実験を行い、最先端のパフォーマンスを実証します。対応する手動ラベルなしで有益な車両部品をキャプチャする機能を備えた私たちのアプローチの%。また、人物ReIDやマルチターゲットマルチカメラ(MTMC)車両追跡など、他のReIDタスクでのアプローチの一般化についても説明します。デモコードは補足ファイルに添付されています。
In the literature of vehicle re-identification (ReID), intensive manual labels such as landmarks, critical parts or semantic segmentation masks are often required to improve the performance. Such extra information helps to detect locally geometric features as a part of representation learning for vehicles. In contrast, in this paper, we aim to address the challenge of automatically learning to detect geometric features as landmarks with no extra labels. To the best of our knowledge, we are the first to successfully learn discriminative geometric features for vehicle ReID based on self-supervised attention. Specifically, we implement an end-to-end trainable deep network architecture consisting of three branches: (1) a global branch as backbone for image feature extraction, (2) an attentional branch for producing attention masks, and (3) a self-supervised branch for regularizing the attention learning with rotated images to locate geometric features. %Our network design naturally leads to an end-to-end multi-task joint optimization. We conduct comprehensive experiments on three benchmark datasets for vehicle ReID, i.e. VeRi-776, CityFlow-ReID, and VehicleID, and demonstrate our state-of-the-art performance. %of our approach with the capability of capturing informative vehicle parts with no corresponding manual labels. We also show the good generalization of our approach in other ReID tasks such as person ReID and multi-target multi-camera (MTMC) vehicle tracking. Our demo code is attached in the supplementary file.