生成モデルは、最近、拡散モデルにより大幅な進歩を遂げました。これらのモデルの成功は、多くの場合、忠実度と多様性の間のトレードオフに効果的なメカニズムを提供する、分類子または分類子を使用しないガイダンスなどのガイダンス手法の使用に起因する可能性があります。しかしながら、これらの方法は、生成された画像がその幾何学的構成、例えば深さを認識できるように誘導することができず、特定レベルの深さ認識を必要とする領域への適用を妨げる。この制限に対処するために、拡散モデルの豊富な中間表現から導出された推定深度情報を使用する、拡散モデルの新しいガイダンス方法を提案します。最初に、拡散モデルの内部表現を使用したラベル効率の高い深度推定フレームワークを提示します。続いて、推定された深度マップを使用して生成された画像を自己調整するために、サンプリング段階で事前に疑似ラベリングと深度ドメイン拡散に基づく 2 つのガイダンス手法を組み込むことを提案します。実験と包括的なアブレーション研究は、幾何学的にもっともらしい画像の生成に向けて拡散モデルを導く方法の有効性を示しています。
Generative models have recently undergone significant advancement due to the diffusion models. The success of these models can be often attributed to their use of guidance techniques, such as classifier or classifier-free guidance, which provide effective mechanisms to trade-off between fidelity and diversity. However, these methods are not capable of guiding a generated image to be aware of its geometric configuration, e.g., depth, which hinders their application to areas that require a certain level of depth awareness. To address this limitation, we propose a novel guidance method for diffusion models that uses estimated depth information derived from the rich intermediate representations of diffusion models. We first present label-efficient depth estimation framework using internal representations of diffusion models. Subsequently, we propose the incorporation of two guidance techniques based on pseudo-labeling and depth-domain diffusion prior during the sampling phase to self-condition the generated image using the estimated depth map. Experiments and comprehensive ablation studies demonstrate the effectiveness of our method in guiding the diffusion models towards the generation of geometrically plausible images.