Video-based Person Re-identification without Bells and Whistles
ビデオベースの個人再識別(Re-ID)は、ビデオトラックレットをトリミングされたビデオフレームと照合して、さまざまなカメラの下で歩行者を識別することを目的としています。ただし、廃止された方法で生成された不完全な検出および追跡結果のために、これらのトリミングされたトラックレットには深刻な空間的および時間的な不整合が存在します。この問題に対処するために、トリミングされたトラックレットにディープラーニングベースの検出と追跡を適用することで、これらの予期しないノイズを効果的に削減できる単純な再検出およびリンク(DL)モジュールを紹介します。さらに、Coarse-to-Fine Axial-Attention Network(CF-AAN)と呼ばれる改良モデルを紹介します。典型的な非ローカルネットワークに基づいて、提案された粗い構造から微細な構造に加えて、非ローカルモジュールを3つの1-D位置に敏感な軸方向の注意に置き換えます。開発したCF-AANを使用すると、元の非ローカル操作と比較して、計算コストを大幅に削減できるだけでなく、最先端のパフォーマンス(ランク1で91.3%、mAPで86.5%)を得ることができます。大規模なMARSデータセット。一方、データアライメントにDLモジュールを採用するだけで、驚いたことに、いくつかのベースラインモデルは、現在の最先端技術と同等またはそれ以上の結果を達成できます。また、トラックレットのIDラベルだけでなく、MARSのテストデータの評価プロトコルにもエラーがあります。私たちの仕事が、空間的および時間的な配置やデータセットのノイズに煩わされることなく、不変表現のさらなる開発のためにコミュニティを支援できることを願っています。コード、修正されたラベル、評価プロトコル、および調整されたデータは、で入手できます。
Video-based person re-identification (Re-ID) aims at matching the video tracklets with cropped video frames for identifying the pedestrians under different cameras. However, there exists severe spatial and temporal misalignment for those cropped tracklets due to the imperfect detection and tracking results generated with obsolete methods. To address this issue, we present a simple re-Detect and Link (DL) module which can effectively reduce those unexpected noise through applying the deep learning-based detection and tracking on the cropped tracklets. Furthermore, we introduce an improved model called Coarse-to-Fine Axial-Attention Network (CF-AAN). Based on the typical Non-local Network, we replace the non-local module with three 1-D position-sensitive axial attentions, in addition to our proposed coarse-to-fine structure. With the developed CF-AAN, compared to the original non-local operation, we can not only significantly reduce the computation cost but also obtain the state-of-the-art performance (91.3% in rank-1 and 86.5% in mAP) on the large-scale MARS dataset. Meanwhile, by simply adopting our DL module for data alignment, to our surprise, several baseline models can achieve better or comparable results with the current state-of-the-arts. Besides, we discover the errors not only for the identity labels of tracklets but also for the evaluation protocol for the test data of MARS. We hope that our work can help the community for the further development of invariant representation without the hassle of the spatial and temporal alignment and dataset noise. The code, corrected labels, evaluation protocol, and the aligned data will be available at
updated: Sat May 22 2021 10:17:38 GMT+0000 (UTC)
published: Sat May 22 2021 10:17:38 GMT+0000 (UTC)
