arXiv reaDer
深い表現が知覚品質の優れた特徴である理由
Why Are Deep Representations Good Perceptual Quality Features?
最近、事前訓練された畳み込みニューラルネットワークの中間特徴マップは、新しいネットワークを訓練するための損失関数で使用される場合、知覚品質の大幅な改善を示しています。これらの機能は、SSIMやPSNRなどの他の知覚メトリクスと比較して、知覚品質のエンコードに優れており、入力画像のより効率的な表現を提供すると考えられています。ただし、根本的な理由を特定する体系的な研究はありません。このような分析がないため、特定の機能セットのパフォーマンスを評価したり、事前トレーニング済みのCNNから機能のサブセットを慎重に選択して知覚品質をさらに向上させることはできません。この作業は、知覚品質の最適化における事前トレーニング済みのディープCNN機能の機能が、基本的な人間の視覚特性のキャプチャでの成功と相関していることを示しています。特に、コントラスト感度や方向選択性など、人間の知覚の基本的な側面に焦点を当てています。 VGG-16などの広く使用されているディープCNNによって学習されたディープフィーチャを評価するために、畳み込み層によって学習されたフィーチャの周波数と方向選択性を測定する2つの新しい定式化を紹介します。より高いスコアを受け取る事前トレーニング済みのCNN機能は、人間の品質判断の予測に優れていることを示しています。さらに、我々は、我々の方法を使用して深い特徴を選択し、新しい損失関数を形成する可能性を示します。これにより、よく知られた単一画像超解像問題の画像再構成品質が向上します。
Recently, intermediate feature maps of pre-trained convolutional neural networks have shown significant perceptual quality improvements, when they are used in the loss function for training new networks. It is believed that these features are better at encoding the perceptual quality and provide more efficient representations of input images compared to other perceptual metrics such as SSIM and PSNR. However, there have been no systematic studies to determine the underlying reason. Due to the lack of such an analysis, it is not possible to evaluate the performance of a particular set of features or to improve the perceptual quality even more by carefully selecting a subset of features from a pre-trained CNN. This work shows that the capabilities of pre-trained deep CNN features in optimizing the perceptual quality are correlated with their success in capturing basic human visual perception characteristics. In particular, we focus our analysis on fundamental aspects of human perception, such as the contrast sensitivity and orientation selectivity. We introduce two new formulations to measure the frequency and orientation selectivity of the features learned by convolutional layers for evaluating deep features learned by widely-used deep CNNs such as VGG-16. We demonstrate that the pre-trained CNN features which receive higher scores are better at predicting human quality judgment. Furthermore, we show the possibility of using our method to select deep features to form a new loss function, which improves the image reconstruction quality for the well-known single-image super-resolution problem.
updated: Thu Jul 23 2020 13:20:17 GMT+0000 (UTC)
published: Sun Dec 02 2018 15:54:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト