ℓ_p(p = 1,2)ノルムの使用は、その単純さと分析特性のために、ニューラルネットワークの損失の測定を主に支配してきました。しかし、視覚情報の喪失を評価するために使用される場合、これらの単純な規範は人間の知覚とあまり一致していません。ここでは、定量的知覚モデルに対して画像分析ネットワークを最適化するための異なる「近位」アプローチについて説明します。具体的には、ProxIQAと広く呼ばれるプロキシネットワークを構築します。これは、ネットワークの損失層として機能しながら、知覚モデルを模倣します。この最適化フレームワークを適用して、エンドツーエンドで最適化された画像圧縮ネットワークをトレーニングする方法を実験的に示します。既存のディープイメージ圧縮モデルの上に構築することにより、指定された知覚品質(VMAF)レベルが与えられた場合、MSE最適化よりも最大31%のビットレート削減を実証できます。
The use of ℓ_p (p=1,2) norms has largely dominated the measurement of loss in neural networks due to their simplicity and analytical properties. However, when used to assess the loss of visual information, these simple norms are not very consistent with human perception. Here, we describe a different "proximal" approach to optimize image analysis networks against quantitative perceptual models. Specifically, we construct a proxy network, broadly termed ProxIQA, which mimics the perceptual model while serving as a loss layer of the network. We experimentally demonstrate how this optimization framework can be applied to train an end-to-end optimized image compression network. By building on top of an existing deep image compression model, we are able to demonstrate a bitrate reduction of as much as 31% over MSE optimization, given a specified perceptual quality (VMAF) level.