arXiv reaDer
オブザーバーに依存する非可逆画像圧縮
Observer Dependent Lossy Image Compression
ディープニューラルネットワークは最近、画像圧縮の最先端技術を進歩させ、多くの従来の圧縮アルゴリズムを上回りました。このようなネットワークのトレーニングには、潜在表現のエントロピーと再構成の品質を慎重にトレードオフすることが含まれます。品質という用語は、大多数の文献では人間であると想定されている画像の観察者に決定的に依存します。この論文では、この圧縮品質の概念を超えて、人間の視覚と画像分類を同時に見ることを目指しています。そのために、観察者に応じて深い画像圧縮を最適化し、人間が知覚する視覚品質と分類精度を補間して、画像圧縮に関するより統一されたビューを可能にする損失関数のファミリーを使用します。私たちの広範な実験は、圧縮システムをトレーニングするために知覚損失関数を使用すると、圧縮画像の分類器の再トレーニングを必要とせずに、BPGなどの従来のコーデックよりもはるかに優れた分類精度を維持することを示しています。たとえば、ImageNetを0.25 bppに圧縮すると、Inception-ResNetの分類精度が2%しか低下しません。同時に、人に優しい損失関数を使用すると、同じ圧縮システムがMS-SSIMの面で競争力のあるパフォーマンスを実現します。これらの2つの目的関数を組み合わせることにより、人間の視覚系と分類精度の間で圧縮品質に顕著なトレードオフがあることを示します。
Deep neural networks have recently advanced the state-of-the-art in image compression and surpassed many traditional compression algorithms. The training of such networks involves carefully trading off entropy of the latent representation against reconstruction quality. The term quality crucially depends on the observer of the images which, in the vast majority of literature, is assumed to be human. In this paper, we aim to go beyond this notion of compression quality and look at human visual perception and image classification simultaneously. To that end, we use a family of loss functions that allows to optimize deep image compression depending on the observer and to interpolate between human perceived visual quality and classification accuracy, enabling a more unified view on image compression. Our extensive experiments show that using perceptual loss functions to train a compression system preserves classification accuracy much better than traditional codecs such as BPG without requiring retraining of classifiers on compressed images. For example, compressing ImageNet to 0.25 bpp reduces Inception-ResNet classification accuracy by only 2%. At the same time, when using a human friendly loss function, the same compression system achieves competitive performance in terms of MS-SSIM. By combining these two objective functions, we show that there is a pronounced trade-off in compression quality between the human visual system and classification accuracy.
updated: Mon Nov 02 2020 10:11:58 GMT+0000 (UTC)
published: Tue Oct 08 2019 15:43:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト