arXiv reaDer
SinIR:単一画像再構成による効率的な一般的な画像操作
SinIR: Efficient General Image Manipulation with Single Image Reconstruction
SinIRは、超解像、編集、調和、ペイントから画像、写実的なスタイルの転送、芸術的なスタイルの転送など、一般的な画像操作のために単一の自然画像でトレーニングされた効率的な再構成ベースのフレームワークです。カスケードされたマルチスケール学習を使用して単一の画像でモデルをトレーニングします。各スケールの各ネットワークが画像の再構成を担当します。この再構築の目的は、GANの目的と比較して、トレーニングの複雑さと実行時間を大幅に削減します。ただし、再構築の目的は、出力品質も悪化させます。したがって、この問題を解決するために、単純なランダムピクセルシャッフルをさらに利用します。これにより、ノイズ除去オートエンコーダーに触発された操作を制御することもできます。定量的評価により、SinIRがさまざまな画像操作タスクで競争力のあるパフォーマンスを発揮することを示します。さらに、はるかに単純なトレーニング目標(つまり、再構築)により、SinIRは、同様のタスクを解決するSinGAN(500 X 500画像の場合)よりも33.5倍速くトレーニングされます。私たちのコードはgithub.com/YooJiHyeong/SinIRで公開されています。
We propose SinIR, an efficient reconstruction-based framework trained on a single natural image for general image manipulation, including super-resolution, editing, harmonization, paint-to-image, photo-realistic style transfer, and artistic style transfer. We train our model on a single image with cascaded multi-scale learning, where each network at each scale is responsible for image reconstruction. This reconstruction objective greatly reduces the complexity and running time of training, compared to the GAN objective. However, the reconstruction objective also exacerbates the output quality. Therefore, to solve this problem, we further utilize simple random pixel shuffling, which also gives control over manipulation, inspired by the Denoising Autoencoder. With quantitative evaluation, we show that SinIR has competitive performance on various image manipulation tasks. Moreover, with a much simpler training objective (i.e., reconstruction), SinIR is trained 33.5 times faster than SinGAN (for 500 X 500 images) that solves similar tasks. Our code is publicly available at github.com/YooJiHyeong/SinIR.
updated: Mon Jun 14 2021 02:41:26 GMT+0000 (UTC)
published: Mon Jun 14 2021 02:41:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト