類似性メトリクスは、画像の基礎となるセマンティクスを捕捉するためにコンピューター ビジョンで重要な役割を果たしてきました。近年、学習知覚画像パッチ類似性 (LPIPS) などの高度な類似性メトリクスが登場しました。これらのメトリクスは、トレーニングされたニューラル ネットワークから抽出された深い特徴を活用しており、画像の相対的な類似性を評価する際に人間の知覚と密接に一致する驚くべき能力を実証しています。しかし、ニューラル ネットワークは、敵対的な例、つまりモデルを意図的に誤解させるために作られた人間には見えない小さな摂動の影響を受けやすいことが現在ではよく知られています。したがって、LPIPS メトリクスは、そのような敵対的な例にも敏感です。この脆弱性は、特に大規模アプリケーションで LPIPS が広く採用されていることを考慮すると、重大なセキュリティ上の懸念を引き起こします。この論文では、敵対的に訓練された深い特徴を活用する新しい指標である、堅牢学習知覚画像パッチ類似性 (R-LPIPS) 指標を提案します。包括的な一連の実験を通じて、古典的な LPIPS メトリクスと比較した R-LPIPS の優位性を実証します。コードは https://github.com/SaraGhazanfari/R-LPIPS で入手できます。
Similarity metrics have played a significant role in computer vision to capture the underlying semantics of images. In recent years, advanced similarity metrics, such as the Learned Perceptual Image Patch Similarity (LPIPS), have emerged. These metrics leverage deep features extracted from trained neural networks and have demonstrated a remarkable ability to closely align with human perception when evaluating relative image similarity. However, it is now well-known that neural networks are susceptible to adversarial examples, i.e., small perturbations invisible to humans crafted to deliberately mislead the model. Consequently, the LPIPS metric is also sensitive to such adversarial examples. This susceptibility introduces significant security concerns, especially considering the widespread adoption of LPIPS in large-scale applications. In this paper, we propose the Robust Learned Perceptual Image Patch Similarity (R-LPIPS) metric, a new metric that leverages adversarially trained deep features. Through a comprehensive set of experiments, we demonstrate the superiority of R-LPIPS compared to the classical LPIPS metric. The code is available at https://github.com/SaraGhazanfari/R-LPIPS.