最新のハードウェアのコンピューティング能力が大幅に向上しているため、大規模なデータセットで学習した事前トレーニング済みの深層学習モデル (BERT、GPT-3 など) は、従来の方法よりも有効性を示しています。大きな進歩は、主にトランスフォーマーとそのバリアント アーキテクチャの表現能力に貢献しています。この論文では、低レベルのコンピューター ビジョン タスク (ノイズ除去、超解像、劣化など) を研究し、新しい事前トレーニング済みモデル、つまり画像処理トランスフォーマー (IPT) を開発します。トランスフォーマーの能力を最大限に引き出すために、有名な ImageNet ベンチマークを利用して大量の破損した画像ペアを生成することを提案します。 IPTモデルは、マルチヘッドとマルチテールを使用してこれらの画像でトレーニングされます。さらに、さまざまな画像処理タスクにうまく適応するために、対照学習が導入されています。したがって、事前に訓練されたモデルは、微調整後に必要なタスクで効率的に使用できます。事前にトレーニングされたモデルが 1 つしかないため、IPT はさまざまな低レベルのベンチマークで現在の最先端の方法よりも優れています。コードは https://github.com/huawei-noah/Pretrained-IPT および https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT で入手できます。
As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g., denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks. Code is available at https://github.com/huawei-noah/Pretrained-IPT and https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT