Del-Net: A Single-Stage Network for Mobile Camera ISP
スマートフォンは主要なキャプチャデバイスとしてユビキタスになりつつあるため、スマートフォンでキャプチャされる画像の品質は重要な仕様です。スマートフォンカメラの従来の画像信号処理(ISP)パイプラインは、生のセンサーデータから高品質のsRGB画像を再構築するために順次実行されるいくつかの画像処理ステップで構成されています。これらのステップは、デモザイキング、ノイズ除去、ホワイトバランス、ガンマ補正、カラーエンハンスメントなどで構成されます。各ステップは手作りのアルゴリズムを使用して順次実行されるため、各処理モジュールからの残留エラーは最終的な再構築信号に蓄積されます。したがって、従来のISPパイプラインでは、画像をキャプチャする際のさまざまな照明条件および関連するノイズレベルにわたる一般化可能性の観点から、再構成の品質が制限されていました。畳み込みニューラルネットワーク(CNN)を使用した深層学習法は、画像のノイズ除去、コントラスト強調、超解像、ブレ除去など、多くの画像関連タスクの解決に人気があります。さらに、深層学習法を使用したRAWからsRGBへの変換の最近のアプローチにはまた、公開されていますが、メモリ要件とマルチアドの数の点で非常に複雑であるため、モバイルカメラISPには適していません。このホワイトペーパーでは、スマートフォンの展開に適した複雑さの範囲内でISPパイプライン全体を学習するためのDelNet(単一のエンドツーエンドのディープラーニングモデル)を提案します。 Del-Netは、空間的注意とチャネル注意を使用して色などのグローバルな機能をキャプチャするマルチスケールアーキテクチャであり、ノイズ除去に役立つ一連の軽量の変更された残余注意ブロックも使用します。検証のために、提案されたDel-Netが説得力のある再構築品質を達成していることを示す結果を提供します。
The quality of images captured by smartphones is an important specification since smartphones are becoming ubiquitous as primary capturing devices. The traditional image signal processing (ISP) pipeline in a smartphone camera consists of several image processing steps performed sequentially to reconstruct a high quality sRGB image from the raw sensor data. These steps consist of demosaicing, denoising, white balancing, gamma correction, colour enhancement, etc. Since each of them are performed sequentially using hand-crafted algorithms, the residual error from each processing module accumulates in the final reconstructed signal. Thus, the traditional ISP pipeline has limited reconstruction quality in terms of generalizability across different lighting conditions and associated noise levels while capturing the image. Deep learning methods using convolutional neural networks (CNN) have become popular in solving many image-related tasks such as image denoising, contrast enhancement, super resolution, deblurring, etc. Furthermore, recent approaches for the RAW to sRGB conversion using deep learning methods have also been published, however, their immense complexity in terms of their memory requirement and number of Mult-Adds make them unsuitable for mobile camera ISP. In this paper we propose DelNet - a single end-to-end deep learning model - to learn the entire ISP pipeline within reasonable complexity for smartphone deployment. Del-Net is a multi-scale architecture that uses spatial and channel attention to capture global features like colour, as well as a series of lightweight modified residual attention blocks to help with denoising. For validation, we provide results to show the proposed Del-Net achieves compelling reconstruction quality.
updated: Tue Aug 03 2021 16:51:11 GMT+0000 (UTC)
published: Tue Aug 03 2021 16:51:11 GMT+0000 (UTC)
