さまざまな色のさまざまなオブジェクトを処理することは、画像のカラー化技術にとって大きな課題です。したがって、複雑な実世界のシーンでは、既存の画像のカラー化アルゴリズムでは色の一貫性を維持できないことがよくあります。この作業では、カラー化プロセスの忠実度を向上させるために、カラー化されるグレースケール画像とともに、テキストの説明を補助条件として統合しようとします。そのために、2 つの入力 (グレースケール画像とそれぞれのエンコードされたテキストの説明) を受け取り、関連する色成分を予測しようとするディープ ネットワークを提案しました。また、画像内の各オブジェクトを予測し、個々の説明で色付けして、色付けプロセスに特定の属性を組み込みました。その後、融合モデルがすべての画像オブジェクト (セグメント) を融合して、最終的なカラー化された画像を生成します。それぞれのテキスト記述には、画像内に存在するオブジェクトの色情報が含まれているため、テキスト エンコーディングは、予測された色の全体的な品質を向上させるのに役立ちます。パフォーマンスに関しては、提案された方法は、LPIPS、PSNR、および SSIM メトリックに関して既存のカラー化技術よりも優れています。
Handling various objects with different colors is a significant challenge for image colorization techniques. Thus, for complex real-world scenes, the existing image colorization algorithms often fail to maintain color consistency. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To do so, we have proposed a deep network that takes two inputs (grayscale image and the respective encoded text description) and tries to predict the relevant color components. Also, we have predicted each object in the image and have colorized them with their individual description to incorporate their specific attributes in the colorization process. After that, a fusion model fuses all the image objects (segments) to generate the final colorized image. As the respective textual descriptions contain color information of the objects present in the image, text encoding helps to improve the overall quality of predicted colors. In terms of performance, the proposed method outperforms existing colorization techniques in terms of LPIPS, PSNR and SSIM metrics.