最近、深層学習ベースの画像強調アルゴリズムは、いくつかの公開されているデータセットで最先端の(SOTA)パフォーマンスを達成しました。ただし、ほとんどの既存の方法は、特に高解像度の画像の場合、視覚または計算効率のいずれかに関する実際的な要件を満たしていません。本論文では、グローバルシナリオとローカル空間情報を十分に考慮した、学習可能な空間認識3次元ルックアップテーブル(3D LUT)を介した新しいリアルタイム画像エンハンサーを提案します。具体的には、2つの出力を持つ軽量の2ヘッド重量予測子を紹介します。 1つは画像レベルのシナリオ適応に使用される1D重みベクトルであり、もう1つはピクセル単位のカテゴリ融合を目的とした3D重みマップです。空間認識3DLUTを学習し、前述の重みに従ってエンドツーエンドで融合します。次に、融合されたLUTを使用して、ソース画像を効率的な方法でターゲットトーンに変換します。広範な結果は、私たちのモデルが主観的および客観的に公開データセットのSOTA画像強調方法よりも優れていること、および私たちのモデルが1つのNVIDIA V100GPUで4K解像度の画像を処理するのに約4msしかかからないことを示しています。
Recently, deep learning-based image enhancement algorithms achieved state-of-the-art (SOTA) performance on several publicly available datasets. However, most existing methods fail to meet practical requirements either for visual perception or for computation efficiency, especially for high-resolution images. In this paper, we propose a novel real-time image enhancer via learnable spatial-aware 3-dimentional lookup tables(3D LUTs), which well considers global scenario and local spatial information. Specifically, we introduce a light weight two-head weight predictor that has two outputs. One is a 1D weight vector used for image-level scenario adaptation, the other is a 3D weight map aimed for pixel-wise category fusion. We learn the spatial-aware 3D LUTs and fuse them according to the aforementioned weights in an end-to-end manner. The fused LUT is then used to transform the source image into the target tone in an efficient way. Extensive results show that our model outperforms SOTA image enhancement methods on public datasets both subjectively and objectively, and that our model only takes about 4ms to process a 4K resolution image on one NVIDIA V100 GPU.