適切な距離メトリックの学習にはかなりの進歩がありましたが、これらの手法は一般に透明性と決定の推論、つまり画像の入力セットが類似または非類似である理由を説明することを欠いています。この作業では、勾配ベースの注意を払って一般的な視覚的類似性の説明を生成する最初の方法を提案することにより、この重要な問題を解決します。私たちの手法が特定の類似性モデルタイプにとらわれないことを示します。たとえば、シャム、トリプレット、およびクアドラプレットモデルへの適用性を示します。さらに、提案された類似性注意を学習プロセスの原則的な部分にし、類似性関数を学習するための新しいパラダイムをもたらします。私たちの学習メカニズムが、より一般化可能で説明可能な類似性モデルをもたらすことを示します。最後に、画像検索、人物の再識別、ローショットのセマンティックセグメンテーションなど、さまざまなタスクの実験によって、フレームワークの一般性を示します。
While there has been substantial progress in learning suitable distance metrics, these techniques in general lack transparency and decision reasoning, i.e., explaining why the input set of images is similar or dissimilar. In this work, we solve this key problem by proposing the first method to generate generic visual similarity explanations with gradient-based attention. We demonstrate that our technique is agnostic to the specific similarity model type, e.g., we show applicability to Siamese, triplet, and quadruplet models. Furthermore, we make our proposed similarity attention a principled part of the learning process, resulting in a new paradigm for learning similarity functions. We demonstrate that our learning mechanism results in more generalizable, as well as explainable, similarity models. Finally, we demonstrate the generality of our framework by means of experiments on a variety of tasks, including image retrieval, person re-identification, and low-shot semantic segmentation.