arXiv reaDer
画像ノイズ除去のための深い潜在部分空間の学習
Learning Deep Latent Subspaces for Image Denoising
不均一性はほとんどのカメラ画像に存在します。この不均一性は、さまざまなモアレリンギング、モーションブラー、色の退色、またはレンズベースの投影歪みとして画像空間全体に現れます。さらに、これらの画像アーチファクトの組み合わせは、取得された画像内の小さなピクセルまたは大きなピクセルの近傍に存在する可能性があります。深く訓練されたバージョンを含む現在のカメラ画像処理パイプラインは、画像全体に均一に適用される単一のフィルターを適用することで問題を修正する傾向があります。これは、エンコーダ-デコーダタイプのディープアーキテクチャがタスク用にトレーニングされている場合にも特に当てはまります。この論文では、異種画像アーティファクトフィルタリングの問題を解決する構造化された深層学習モデルを提示します。深く訓練されたモデルを、カメラISP用のパッチ部分空間変分オートエンコーダー(PS-VAE)と呼びます。 PS-VAEは、必ずしも均一な画像の歪みレベルや画像内の同様のアーティファクトタイプを想定しているわけではありません。むしろ、私たちのモデルは、画像から抽出されたさまざまなパッチを、複数の潜在的な部分空間内でアーティファクトタイプと歪みレベルにクラスター化することを学習しようとします(たとえば、モアレリンギングアーティファクトは、ガウスモーションブラーアーティファクトよりも高次元の潜在的な歪みであることがよくあります)。各画像のパッチは、以前の混合モデルを使用して、適切な潜在部分空間のソフトクラスターにエンコードされます。 PS-VAEのデコーダーも、各ソフトクラスター内の各イメージパッチに対して教師なし方法でトレーニングされます。私たちの実験結果は、改善された異種フィルタリングによって達成できる柔軟性とパフォーマンスを示しています。結果を従来の1エンコーダー1デコーダーアーキテクチャと比較します。
Heterogeneity exists in most camera images. This heterogeneity manifests itself across the image space as varied Moire ringing, motion-blur, color-bleaching or lens based projection distortions. Moreover, combinations of these image artifacts can be present in small or large pixel neighborhoods, within an acquired image. Current camera image processing pipelines, including deep trained versions, tend to rectify the issue applying a single filter that is homogeneously applied to the entire image. This is also particularly true when an encoder-decoder type deep architecture is trained for the task. In this paper, we present a structured deep learning model that solves the heterogeneous image artifact filtering problem. We call our deep trained model the Patch Subspace Variational Autoencoder (PS-VAE) for Camera ISP. PS-VAE does not necessarily assume uniform image distortion levels nor similar artifact types within the image. Rather, our model attempts to learn to cluster different patches extracted from images into artifact type and distortion levels, within multiple latent subspaces (e.g. Moire ringing artifacts are often a higher dimensional latent distortion than a Gaussian motion blur artifact). Each image's patches are encoded into soft-clusters in their appropriate latent sub-space, using a prior mixture model. The decoders of the PS-VAE are also trained in an unsupervised manner for each of the image patches in each soft-cluster. Our experimental results demonstrates the flexibility and performance that one can achieve through improved heterogeneous filtering. We compare our results to a conventional one-encoder-one-decoder architecture.
updated: Thu Apr 22 2021 14:29:47 GMT+0000 (UTC)
published: Thu Apr 01 2021 04:40:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト