最近の画像生成モデルは、驚くべき生成性能を示しています。ただし、これらは、空間バイアスと呼ばれるデータセット内の強い場所の好みを反映しています。したがって、ジェネレーターは、目に見えない場所やスケールで貧弱なサンプルをレンダリングします。ジェネレータは、空間コンテンツをレンダリングするために暗黙の位置エンコーディングに依存していると主張します。私たちの観察から、ジェネレータの暗黙的な位置エンコーディングは変換バリアントであり、ジェネレータを空間的にバイアスします。この問題に対処するために、ジェネレータの各スケールで明示的な位置エンコーディングを注入することを提案します。空間的に偏りのないジェネレーターを学習することで、GAN反転、マルチスケール生成、任意のサイズやアスペクト比の生成など、複数のタスクでジェネレーターを確実に使用できるようになります。さらに、我々の方法が拡散確率モデルのノイズ除去にも適用できることを示します。
Recent image generation models show remarkable generation performance. However, they mirror strong location preference in datasets, which we call spatial bias. Therefore, generators render poor samples at unseen locations and scales. We argue that the generators rely on their implicit positional encoding to render spatial content. From our observations, the generator's implicit positional encoding is translation-variant, making the generator spatially biased. To address this issue, we propose injecting explicit positional encoding at each scale of the generator. By learning the spatially unbiased generator, we facilitate the robust use of generators in multiple tasks, such as GAN inversion, multi-scale generation, generation of arbitrary sizes and aspect ratios. Furthermore, we show that our method can also be applied to denoising diffusion probabilistic models.