arXiv reaDer
クエリによるアウトペインティング
Outpainting by Queries
畳み込みニューラルネットワーク(CNN)ベースのフレームワークで十分に研究されている画像のアウトペインティングは、最近、コンピュータービジョンでより注目を集めています。ただし、CNNは、効果的なサンプル学習を実現するために固有の誘導バイアスに依存しているため、パフォーマンスの上限が低下する可能性があります。この論文では、トランスアーキテクチャの誘導バイアスを最小限に抑えた柔軟な自己注意メカニズムに動機付けられて、一般化された画像のアウトペインティング問題をパッチごとのシーケンス間の自己回帰問題として再構成し、クエリベースの画像のアウトペインティングを可能にします。具体的には、特定の画像の周囲の視覚的コンテキストを外挿するために、Query Outpainting TRansformer(QueryOTR)という名前の新しいハイブリッドビジョントランスフォーマーベースのエンコーダーデコーダーフレームワークを提案します。パッチワイズモードのグローバルモデリング機能により、アテンションメカニズムのクエリの観点から画像を推定することができます。新しいクエリ拡張モジュール(QEM)は、エンコーダーの出力に基づいて予測されたクエリからの情報を統合するように設計されているため、比較的小さなデータセットでも純粋なトランスフォーマーの収束を加速します。各パッチ間の接続性をさらに強化するために、提案されたパッチ平滑化モジュール(PSM)は、オーバーラップした領域を再割り当てして平均化し、シームレスな予測画像を提供します。 QueryOTRが、最先端の画像アウトペインティングアプローチに対して、視覚的に魅力的な結果をスムーズかつ現実的に生成できることを実験的に示します。
Image outpainting, which is well studied with Convolution Neural Network (CNN) based framework, has recently drawn more attention in computer vision. However, CNNs rely on inherent inductive biases to achieve effective sample learning, which may degrade the performance ceiling. In this paper, motivated by the flexible self-attention mechanism with minimal inductive biases in transformer architecture, we reframe the generalised image outpainting problem as a patch-wise sequence-to-sequence autoregression problem, enabling query-based image outpainting. Specifically, we propose a novel hybrid vision-transformer-based encoder-decoder framework, named Query Outpainting TRansformer (QueryOTR), for extrapolating visual context all-side around a given image. Patch-wise mode's global modeling capacity allows us to extrapolate images from the attention mechanism's query standpoint. A novel Query Expansion Module (QEM) is designed to integrate information from the predicted queries based on the encoder's output, hence accelerating the convergence of the pure transformer even with a relatively small dataset. To further enhance connectivity between each patch, the proposed Patch Smoothing Module (PSM) re-allocates and averages the overlapped regions, thus providing seamless predicted images. We experimentally show that QueryOTR could generate visually appealing results smoothly and realistically against the state-of-the-art image outpainting approaches.
updated: Tue Jul 12 2022 04:48:41 GMT+0000 (UTC)
published: Tue Jul 12 2022 04:48:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト