多光源の色の恒常性は、既存の方法がわずかしかないため、困難な問題です。たとえば、ある先行研究では、定義済みのホワイト バランス設定の小さなセットを使用し、それらを空間的にブレンドして、ソリューションを定義済みの照明に限定していました。別の方法は、敵対的生成ネットワークと角度損失を提案しましたが、マルチイルミネーションカラーの正則化がないため、パフォーマンスは最適ではありません。この論文では、単一の入力画像から単一および複数の光の色を推定するための、変換器ベースのマルチタスク学習方法を紹介します。深層学習モデルが明るい色のより良い手がかりを持てるようにするために、無彩色ピクセル検出とエッジ検出が、マルチタスク学習設定の補助タスクとして使用されます。入力画像から抽出されたコンテンツの特徴をトークンとして利用することにより、ピクセル間の光源の色の相関関係が、トランスフォーマーのコンテキスト情報を活用して学習されます。私たちのトランス アプローチは、入力、出力、およびグラウンド トゥルースの間で定義される対照的な損失によってさらに支援されます。提案されたモデルが、多光源データセット (LSMI) に対する最先端の多光源色恒常法と比較して 40.7% の改善を達成することを実証します。さらに、私たちのモデルは、単一光源データセット (NUS-8) で堅牢なパフォーマンスを維持し、最先端の単一色恒常法で 22.3% の改善を提供します。
Multi-illuminant color constancy is a challenging problem with only a few existing methods. For example, one prior work used a small set of predefined white balance settings and spatially blended among them, limiting the solution to predefined illuminations. Another method proposed a generative adversarial network and an angular loss, yet the performance is suboptimal due to the lack of regularization for multi-illumination colors. This paper introduces a transformer-based multi-task learning method to estimate single and multiple light colors from a single input image. To help our deep learning model have better cues of the light colors, achromatic-pixel detection, and edge detection are used as auxiliary tasks in our multi-task learning setting. By exploiting extracted content features from the input image as tokens, illuminant color correlations between pixels are learned by leveraging contextual information in our transformer. Our transformer approach is further assisted via a contrastive loss defined between the input, output, and ground truth. We demonstrate that our proposed model achieves 40.7% improvement compared to a state-of-the-art multi-illuminant color constancy method on a multi-illuminant dataset (LSMI). Moreover, our model maintains a robust performance on the single illuminant dataset (NUS-8) and provides 22.3% improvement on the state-of-the-art single color constancy method.