arXiv reaDer
ImageBART:自己回帰画像合成のための多項拡散を伴う双方向コンテキスト
ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis
自己回帰モデルとそれらのデータ尤度の順次因数分解は、最近、画像の表現と合成に大きな可能性を示しています。それにもかかわらず、それらは、上または左に以前に合成された画像パッチのみに注意を払うことにより、線形1D順序で画像コンテキストを組み込みます。合成がほぼ完了するまでシーンの大部分を無視するため、この一方向の連続的な注意の偏りは画像にとって不自然であるだけではありません。また、画像全体を1つのスケールで処理するため、シーン全体の要点まで、よりグローバルなコンテキスト情報が無視されます。救済策として、自己回帰定式化を多項拡散プロセスと組み合わせることにより、コンテキストの粗い階層から細かい階層を組み込みます。多段拡散プロセスは情報を連続的に削除して画像を粗くしますが、このプロセスを反転するように(短い)マルコフ連鎖をトレーニングします。 。各段階で、結果として得られる自己回帰ImageBARTモデルは、前の段階のコンテキストを粗い方法から細かい方法で段階的に組み込みます。実験では、自己回帰モデルよりも大幅に改善された画像修正機能を示しながら、高忠実度の画像生成も提供しています。これらは両方とも、圧縮された潜在空間での効率的なトレーニングによって可能になります。具体的には、私たちのアプローチでは、ユーザーが提供する無制限のマスクを考慮に入れて、ローカル画像編集を実行できます。したがって、純粋な自己回帰モデルとは対照的に、自由形式の画像の修復を解決でき、条件付きモデルの場合は、マスク固有のトレーニングを必要とせずに、ローカルのテキストガイド付き画像の変更を解決できます。
Autoregressive models and their sequential factorization of the data likelihood have recently demonstrated great potential for image representation and synthesis. Nevertheless, they incorporate image context in a linear 1D order by attending only to previously synthesized image patches above or to the left. Not only is this unidirectional, sequential bias of attention unnatural for images as it disregards large parts of a scene until synthesis is almost complete. It also processes the entire image on a single scale, thus ignoring more global contextual information up to the gist of the entire scene. As a remedy we incorporate a coarse-to-fine hierarchy of context by combining the autoregressive formulation with a multinomial diffusion process: Whereas a multistage diffusion process successively removes information to coarsen an image, we train a (short) Markov chain to invert this process. In each stage, the resulting autoregressive ImageBART model progressively incorporates context from previous stages in a coarse-to-fine manner. Experiments show greatly improved image modification capabilities over autoregressive models while also providing high-fidelity image generation, both of which are enabled through efficient training in a compressed latent space. Specifically, our approach can take unrestricted, user-provided masks into account to perform local image editing. Thus, in contrast to pure autoregressive models, it can solve free-form image inpainting and, in the case of conditional models, local, text-guided image modification without requiring mask-specific training.
updated: Thu Aug 19 2021 17:50:07 GMT+0000 (UTC)
published: Thu Aug 19 2021 17:50:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト