arXiv reaDer
トランスフォーマーによる高忠実度な多元的画像補完
High-Fidelity Pluralistic Image Completion with Transformers
畳み込みニューラルネットワーク(CNN)を用いた画像補完は、その強力なテクスチャモデリング能力により、大きな進歩を遂げた。しかし、CNNは、いくつかの固有の特性(例: 局所的な帰納的事前処理、空間不変カーネル)のために、グローバルな構造を理解するのには適しておらず、多元的な補完を自然にサポートすることはできない。最近では、トランスフォーマーが、長期的な関係をモデル化し、多様な結果を生成する力を発揮しているが、その計算量は入力長の2次関数であるため、高解像度画像の処理への応用を妨げている。本論文では、トランスフォーマーによる外見の事前復元と、CNNによるテクスチャの補充という、両方の長所を多元的な画像補完にもたらす。前者のトランスフォーマーでは、多元的なコヒーレント構造と粗いテクスチャを復元し、後者のCNNでは,高解像度のマスク画像から導かれた粗いプリオールの局所的なテクスチャの詳細を強化する。提案手法は、以下の3つの観点から最先端の手法を大幅に凌駕する。1) 決定論的補完法と比較して、画像の忠実度に関する大幅な性能向上、2) 多元的補完法における、より優れた多様性とより高い忠実度、3) ImageNetのような大規模なマスクや一般的なデータセットでの卓越した一般化能力。
Image completion has made tremendous progress with convolutional neural networks (CNNs), because of their powerful texture modeling capacity. However, due to some inherent properties (e.g., local inductive prior, spatial-invariant kernels), CNNs do not perform well in understanding global structures or naturally support pluralistic completion. Recently, transformers demonstrate their power in modeling the long-term relationship and generating diverse results, but their computation complexity is quadratic to input length, thus hampering the application in processing high-resolution images. This paper brings the best of both worlds to pluralistic image completion: appearance prior reconstruction with transformer and texture replenishment with CNN. The former transformer recovers pluralistic coherent structures together with some coarse textures, while the latter CNN enhances the local texture details of coarse priors guided by the high-resolution masked images. The proposed method vastly outperforms state-of-the-art methods in terms of three aspects: 1) large performance boost on image fidelity even compared to deterministic completion methods; 2) better diversity and higher fidelity for pluralistic completion; 3) exceptional generalization ability on large masks and generic dataset, like ImageNet.
updated: Thu Mar 25 2021 17:59:46 GMT+0000 (UTC)
published: Thu Mar 25 2021 17:59:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト