夜間の熱赤外線 (NTIR) 画像のカラー化は、NTIR 画像を昼間のカラー画像に変換すること (NTIR2DC) としても知られ、人間やインテリジェント システムが不利な条件下 (完全な暗闇など) で夜間のシーンを認識しやすくするための有望な研究の方向性です。ただし、以前に開発された方法では、サンプル クラスが小さい場合、色付けのパフォーマンスが低下します。さらに、疑似ラベルの信頼度の高いノイズを減らし、翻訳中に画像の勾配が消失する問題に対処することはまだ調査されておらず、翻訳中にエッジが歪まないようにすることも困難です。前述の問題に対処するために、人間の類推的推論メカニズムに触発された、記憶誘導共同注意生成的敵対ネットワーク (MornGAN) と呼ばれる新しい学習フレームワークを提案します。具体的には、小さなサンプル カテゴリのセマンティックな保存を強化するために、記憶に基づくサンプル選択戦略と適応型共同注意喪失が考案されました。さらに、NTIR 画像の疑似ラベルをマイニングおよび改良するためのオンライン セマンティック蒸留モジュールを提案します。さらに、変換中のエッジの歪みを減らすために、条件付き勾配修復損失が導入されます。 NTIR2DC タスクに関する広範な実験は、提案された MornGAN がセマンティックの保存とエッジの一貫性の点で他の画像から画像への変換方法よりも大幅に優れていることを示しており、オブジェクト検出の精度を著しく向上させるのに役立ちます。
Nighttime thermal infrared (NTIR) image colorization, also known as translation of NTIR images into daytime color images (NTIR2DC), is a promising research direction to facilitate nighttime scene perception for humans and intelligent systems under unfavorable conditions (e.g., complete darkness). However, previously developed methods have poor colorization performance for small sample classes. Moreover, reducing the high confidence noise in pseudo-labels and addressing the problem of image gradient disappearance during translation are still under-explored, and keeping edges from being distorted during translation is also challenging. To address the aforementioned issues, we propose a novel learning framework called Memory-guided cOllaboRative atteNtion Generative Adversarial Network (MornGAN), which is inspired by the analogical reasoning mechanisms of humans. Specifically, a memory-guided sample selection strategy and adaptive collaborative attention loss are devised to enhance the semantic preservation of small sample categories. In addition, we propose an online semantic distillation module to mine and refine the pseudo-labels of NTIR images. Further, conditional gradient repair loss is introduced for reducing edge distortion during translation. Extensive experiments on the NTIR2DC task show that the proposed MornGAN significantly outperforms other image-to-image translation methods in terms of semantic preservation and edge consistency, which helps improve the object detection accuracy remarkably.