arXiv reaDer
事前トレーニング済みの画像処理トランスフォーマー
Pre-Trained Image Processing Transformer
最新のハードウェアの計算能力が大幅に向上しているため、大規模なデータセットで学習された事前トレーニング済みの深層学習モデル(BERT、GPT-3など)は、従来の方法よりも有効であることが示されています。大きな進歩は、主にトランスフォーマーとそのバリアントアーキテクチャの表現能力に貢献しています。この論文では、低レベルのコンピュータビジョンタスク(ノイズ除去、超解像、ドレインなど)を研究し、新しい事前トレーニング済みモデル、つまり画像処理トランス(IPT)を開発します。トランスフォーマーの機能を最大限に活用するために、有名なImageNetベンチマークを利用して、破損した画像ペアを大量に生成する方法を紹介します。 IPTモデルは、マルチヘッドとマルチテールを使用してこれらの画像でトレーニングされます。さらに、さまざまな画像処理タスクにうまく適応するために、対照学習が導入されています。したがって、事前にトレーニングされたモデルは、微調整後の目的のタスクで効率的に使用できます。事前にトレーニングされたモデルが1つしかないため、IPTは、さまざまな低レベルのベンチマークで現在の最先端の方法よりも優れています。
As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g. , BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g. , denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks.
updated: Tue Dec 01 2020 09:42:46 GMT+0000 (UTC)
published: Tue Dec 01 2020 09:42:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト