arXiv reaDer
実用的な画像コピー検出のためのベンチマークと非対称類似性学習
A Benchmark and Asymmetrical-Similarity Learning for Practical Image Copy Detection
画像コピー検出 (ICD) は、クエリ画像が参照セットからの画像の編集済みコピーであるかどうかを判断することを目的としています。現在、ICD の公開ベンチマークは非常に限られていますが、現実世界のアプリケーションにおける重要な課題、つまりハード ネガティブ クエリからの注意散漫をすべて見落としています。具体的には、一部のクエリは編集されたコピーではありませんが、一部の参照画像に本質的に類似しています。これらのハード ネガティブ クエリは、編集されたコピーとして簡単に誤認識され、ICD の精度が大幅に低下します。この観察は、この特性を特徴とする最初の ICD ベンチマークを構築する動機となっています。既存の ICD データセットに基づいて、このペーパーでは、トレーニング セットとテスト セットにそれぞれ 100,000 と 24,252 のハード ネガティブ ペアを追加して、新しいデータセットを構築します。さらに、この論文は、ICD のハード ネガティブ問題を解決するための独特の難しさ、つまり、現在のメトリック学習と ICD の間に根本的な矛盾があることをさらに明らかにしています。この競合は次のとおりです: メトリック学習は対称距離を採用しますが、編集されたコピーは非対称 (一方向) プロセスです。前者(距離は同じくらい小さいにもかかわらず)。この洞察は、非対称類似性学習 (ASL) メソッドをもたらします。これにより、2 つの方向 (クエリ <-> 参照画像) での類似性を互いに異なるものにすることができます。実験結果は、ASL が最先端の方法よりも明らかに優れていることを示しており、対称と非対称の競合を解決することが ICD にとって重要であることを確認しています。 NDEC データセットとコードは、https://github.com/WangWenhao0716/ASL で入手できます。
Image copy detection (ICD) aims to determine whether a query image is an edited copy of any image from a reference set. Currently, there are very limited public benchmarks for ICD, while all overlook a critical challenge in real-world applications, i.e., the distraction from hard negative queries. Specifically, some queries are not edited copies but are inherently similar to some reference images. These hard negative queries are easily false recognized as edited copies, significantly compromising the ICD accuracy. This observation motivates us to build the first ICD benchmark featuring this characteristic. Based on existing ICD datasets, this paper constructs a new dataset by additionally adding 100, 000 and 24, 252 hard negative pairs into the training and test set, respectively. Moreover, this paper further reveals a unique difficulty for solving the hard negative problem in ICD, i.e., there is a fundamental conflict between current metric learning and ICD. This conflict is: the metric learning adopts symmetric distance while the edited copy is an asymmetric (unidirectional) process, e.g., a partial crop is close to its holistic reference image and is an edited copy, while the latter cannot be the edited copy of the former (in spite the distance is equally small). This insight results in an Asymmetrical-Similarity Learning (ASL) method, which allows the similarity in two directions (the query <-> the reference image) to be different from each other. Experimental results show that ASL outperforms state-of-the-art methods by a clear margin, confirming that solving the symmetric-asymmetric conflict is critical for ICD. The NDEC dataset and code are available at https://github.com/WangWenhao0716/ASL.
updated: Thu Dec 01 2022 21:18:37 GMT+0000 (UTC)
published: Tue May 24 2022 20:39:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト