オブジェクト認識CNNから取得した機能は、画像間の知覚的類似性を測定するために広く使用されています。このような微分可能なメトリックは、画像強調モデルをトレーニングするための知覚学習損失として使用できます。ただし、入力フィーチャとターゲットフィーチャ間の距離関数の選択は、トレーニング済みモデルのパフォーマンスに結果的に影響を与える可能性があります。抽出された特徴間の差のノルムを使用すると、細部の幻覚が制限されますが、特徴の分布間の距離を測定すると、より多くのテクスチャが生成される可能性があります。さらに、より非現実的な詳細やアーティファクトもあります。このホワイトペーパーでは、CNNアクティベーション間の1D-ワッサースタイン距離の集計が既存のアプローチよりも信頼性が高く、拡張モデルの知覚パフォーマンスを大幅に向上できることを示します。より明確に言えば、ノイズ除去、超解像、デモザイキング、ブレ除去、JPEGアーティファクト除去などのイメージングアプリケーションでは、提案された学習損失が、参照ベースの知覚損失に関する現在の最先端技術を上回っていることを示しています。これは、提案された学習損失をさまざまなイメージングフレームワークにプラグインして、知覚的に現実的な結果を生成できることを意味します。
Features obtained from object recognition CNNs have been widely used for measuring perceptual similarities between images. Such differentiable metrics can be used as perceptual learning losses to train image enhancement models. However, the choice of the distance function between input and target features may have a consequential impact on the performance of the trained model. While using the norm of the difference between extracted features leads to limited hallucination of details, measuring the distance between distributions of features may generate more textures; yet also more unrealistic details and artifacts. In this paper, we demonstrate that aggregating 1D-Wasserstein distances between CNN activations is more reliable than the existing approaches, and it can significantly improve the perceptual performance of enhancement models. More explicitly, we show that in imaging applications such as denoising, super-resolution, demosaicing, deblurring and JPEG artifact removal, the proposed learning loss outperforms the current state-of-the-art on reference-based perceptual losses. This means that the proposed learning loss can be plugged into different imaging frameworks and produce perceptually realistic results.