グレースケール画像のカラー化は、情報復元のための AI の魅力的なアプリケーションです。出力がマルチモーダルになる可能性があるため、この問題は本質的に設定が不適切なため、さらに困難になります。現在使用されている学習ベースの方法では、単純なケースでは許容できる結果が得られますが、図と地面が明確に分離されていない場合、通常はコンテキスト情報を復元できません。また、完全な画像機能でトレーニングされた単一のモデルでは、多様なデータ モードを学習するには不十分であるため、画像は色のにじみや彩度の低い背景に悩まされます。これらの問題に対処するために、並列 GAN ベースのカラー化フレームワークを提示します。私たちのアプローチでは、個別に調整された各 GAN パイプラインが前景 (オブジェクト レベルの機能を使用) または背景 (フルイメージ機能を使用) に色を付けます。フォアグラウンド パイプラインは、COCO データセットからのフルイメージ機能と対応するオブジェクト レベル機能を使用してトレーニングされたジェネレータとして、自己注意を備えた Residual-UNet を採用しています。バックグラウンド パイプラインは、完全な画像の特徴と、Places データセットからの追加のトレーニング サンプルに依存しています。並列に生成された出力の特徴ベースの融合によって最終的なカラー化された画像を取得するために、DenseFuse ベースの融合ネットワークを設計します。画像の色付けなどのマルチモーダル問題を評価するために一般的に使用される非知覚評価指標の欠点を示し、複数の知覚指標を使用してフレームワークの広範なパフォーマンス評価を実行します。私たちのアプローチは、既存の学習ベースの方法のほとんどよりも優れており、最先端の方法に匹敵する結果を生み出します。さらに、ランタイム分析を実行し、画像あたり 24 ミリ秒の平均推論時間を取得しました。
Grayscale image colorization is a fascinating application of AI for information restoration. The inherently ill-posed nature of the problem makes it even more challenging since the outputs could be multi-modal. The learning-based methods currently in use produce acceptable results for straightforward cases but usually fail to restore the contextual information in the absence of clear figure-ground separation. Also, the images suffer from color bleeding and desaturated backgrounds since a single model trained on full image features is insufficient for learning the diverse data modes. To address these issues, we present a parallel GAN-based colorization framework. In our approach, each separately tailored GAN pipeline colorizes the foreground (using object-level features) or the background (using full-image features). The foreground pipeline employs a Residual-UNet with self-attention as its generator trained using the full-image features and the corresponding object-level features from the COCO dataset. The background pipeline relies on full-image features and additional training examples from the Places dataset. We design a DenseFuse-based fusion network to obtain the final colorized image by feature-based fusion of the parallelly generated outputs. We show the shortcomings of the non-perceptual evaluation metrics commonly used to assess multi-modal problems like image colorization and perform extensive performance evaluation of our framework using multiple perceptual metrics. Our approach outperforms most of the existing learning-based methods and produces results comparable to the state-of-the-art. Further, we performed a runtime analysis and obtained an average inference time of 24ms per image.