arXiv reaDer
知覚された画像統計を保存するための中心窩再構成の学習
Learning Foveated Reconstruction to Preserve Perceived Image Statistics
中心窩画像再構成は、離心率とともに急速に低下する人間の視覚系の網膜感度に従って分散されたサンプルのまばらなセットから完全な画像を復元します。最近、Generative Adversarial Networksの使用は、欠落している画像情報をうまく幻覚化できるため、このようなタスクの有望なソリューションであることが示されました。他の教師あり学習アプローチと同様に、このアプローチでも、損失関数とトレーニング戦略の定義が出力品質に大きく影響します。この作業では、人間の視覚系の機能と制限を完全に認識し、視覚的に重要な画像の特徴を再構成するように、中心窩再構成手法のトレーニングを効率的にガイドする方法について質問します。私たちの主な目標は、人間が検出できない歪みに対するトレーニング手順の感度を下げ、知覚的に重要なアーティファクトにペナルティを課すことに集中することです。 GANベースのソリューションの性質上、さまざまな入力サンプル密度に対する幻覚に対する人間の感度に重点を置いています。新しい精神物理学的実験、データセット、および中心窩画像再構成をトレーニングするための手順を提示します。この戦略は、出力の知覚的に重要な偏差のみにペナルティを課すことにより、発電機ネットワークに柔軟性を提供します。結果として、この方法は、自然な画像統計ではなく、知覚された画像統計を保存することを目的としています。戦略を評価し、新しくトレーニングされた客観的指標、最近の中心的なビデオ品質指標、およびユーザー実験を使用して、代替ソリューションと比較します。私たちの評価は、標準的なGANトレーニングアプローチと比較して、知覚される画像再構成の品質が大幅に向上していることを示しています。
Foveated image reconstruction recovers full image from a sparse set of samples distributed according to the human visual system's retinal sensitivity that rapidly drops with eccentricity. Recently, the use of Generative Adversarial Networks was shown to be a promising solution for such a task as they can successfully hallucinate missing image information. Like for other supervised learning approaches, also for this one, the definition of the loss function and training strategy heavily influences the output quality. In this work, we pose the question of how to efficiently guide the training of foveated reconstruction techniques such that they are fully aware of the human visual system's capabilities and limitations, and therefore, reconstruct visually important image features. Our primary goal is to make training procedure less sensitive to the distortions that humans cannot detect and focus on penalizing perceptually important artifacts. Due to the nature of GAN-based solutions, we concentrate on humans' sensitivity to hallucination for different input sample densities. We present new psychophysical experiments, a dataset, and a procedure for training foveated image reconstruction. The strategy provides flexibility to the generator network by penalizing only perceptually important deviations in the output. As a result, the method aims to preserve perceived image statistics rather than natural image statistics. We evaluate our strategy and compare it to alternative solutions using a newly trained objective metric, a recent foveated video quality metric, and user experiments. Our evaluations show significant improvements in perceived image reconstruction quality compared to standard GAN training approach.
updated: Wed May 25 2022 13:52:54 GMT+0000 (UTC)
published: Sat Aug 07 2021 18:39:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト