arXiv reaDer
ASSET:高解像度のトランスフォーマーを使用した自己回帰セマンティックシーン編集
ASSET: Autoregressive Semantic Scene Editing with Transformers at High Resolutions
セマンティックセグメンテーションマップでのユーザーの編集に応じて、入力された高解像度画像を自動的に変更するためのニューラルアーキテクチャであるASSETを紹介します。私たちのアーキテクチャは、新しいアテンションメカニズムを備えたトランスフォーマーに基づいています。私たちの重要なアイデアは、低画像解像度で抽出された密な注意に導かれて、高解像度で変圧器の注意マトリックスをスパース化することです。以前の注意メカニズムは、高解像度の画像を処理するには計算コストがかかりすぎるか、特定の画像領域内で過度に制約されて長距離の相互作用を妨げますが、新しい注意メカニズムは計算効率が高く、効果的です。私たちのスパースアテンションメカニズムは、長距離の相互作用とコンテキストをキャプチャすることができ、以前のconvnetでは確実に生成できなかった水への風景の反射や他の風景と一致する植物相などのシーンで興味深い現象を合成することにつながりますと変圧器のアプローチ。私たちは、定性的および定量的な結果をユーザーの研究とともに提示し、私たちの方法の有効性を示しています。
We present ASSET, a neural architecture for automatically modifying an input high-resolution image according to a user's edits on its semantic segmentation map. Our architecture is based on a transformer with a novel attention mechanism. Our key idea is to sparsify the transformer's attention matrix at high resolutions, guided by dense attention extracted at lower image resolutions. While previous attention mechanisms are computationally too expensive for handling high-resolution images or are overly constrained within specific image regions hampering long-range interactions, our novel attention mechanism is both computationally efficient and effective. Our sparsified attention mechanism is able to capture long-range interactions and context, leading to synthesizing interesting phenomena in scenes, such as reflections of landscapes onto water or flora consistent with the rest of the landscape, that were not possible to generate reliably with previous convnets and transformer approaches. We present qualitative and quantitative results, along with user studies, demonstrating the effectiveness of our method.
updated: Tue May 24 2022 17:39:53 GMT+0000 (UTC)
published: Tue May 24 2022 17:39:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト