畳み込みニューラルネットワークの採用による人の再識別(ReID)の大きな進歩にもかかわらず、現在のReIDモデルは不透明であり、2人の間のスカラー距離のみを出力します。 2人が同じであるかどうかについて、意味的に理解できる説明をユーザーに提供する方法はほとんどありません。この論文では、既存のReIDモデルを説明するために、属性誘導メトリック蒸留(AMD)という名前の事後手法を提案します。これは、答える属性を調査する最初の方法です。1)属性が2人を異なるものにするものと場所、および2)各属性が違いにどの程度寄与するか。 AMDでは、属性の定量的寄与を生成し、最も識別力のある属性の正確な注意マップを視覚化するために、ターゲットモデル用のプラグ可能なインタープリターネットワークを設計します。この目標を達成するために、インタプリタがターゲットモデルから抽出された知識を使用して、2人の距離を属性のコンポーネントに分解することを学習するメトリック蒸留損失を提案します。さらに、インタプリタに属性に基づく注意マップを生成させ、属性の不均衡な分布によって引き起こされるバイアスを排除するために、属性の事前損失を提案します。この喪失により、通訳者は、2人の大面積であるが共通の属性ではなく、排他的で差別的な属性に焦点を合わせることができます。包括的な実験により、インタープリターはさまざまなモデルに対して効果的で直感的な説明を生成し、クロスドメイン設定で十分に一般化できることが示されています。副産物として、ターゲットモデルの精度は私たちの通訳でさらに改善することができます。
Despite the great progress of person re-identification (ReID) with the adoption of Convolutional Neural Networks, current ReID models are opaque and only outputs a scalar distance between two persons. There are few methods providing users semantically understandable explanations for why two persons are the same one or not. In this paper, we propose a post-hoc method, named Attribute-guided Metric Distillation (AMD), to explain existing ReID models. This is the first method to explore attributes to answer: 1) what and where the attributes make two persons different, and 2) how much each attribute contributes to the difference. In AMD, we design a pluggable interpreter network for target models to generate quantitative contributions of attributes and visualize accurate attention maps of the most discriminative attributes. To achieve this goal, we propose a metric distillation loss by which the interpreter learns to decompose the distance of two persons into components of attributes with knowledge distilled from the target model. Moreover, we propose an attribute prior loss to make the interpreter generate attribute-guided attention maps and to eliminate biases caused by the imbalanced distribution of attributes. This loss can guide the interpreter to focus on the exclusive and discriminative attributes rather than the large-area but common attributes of two persons. Comprehensive experiments show that the interpreter can generate effective and intuitive explanations for varied models and generalize well under cross-domain settings. As a by-product, the accuracy of target models can be further improved with our interpreter.