DreamBooth のような最近のテキストから画像への生成モデルは、少数の例から特定の主題に合わせて「エキスパート モデル」を微調整することにより、対象の主題の高度にカスタマイズされた画像を生成する点で目覚ましい進歩を遂げています。ただし、被験者ごとに新しいエキスパート モデルを学習する必要があるため、このプロセスにはコストがかかります。この論文では、主題固有の微調整をコンテキスト内学習に置き換える主題駆動型の Text-to-Image ジェネレーターである SuTI を紹介します。新しい主題のデモンストレーションをいくつか行うと、SuTI は主題固有の最適化を行わずに、さまざまなシーンでその主題の新しい演出を瞬時に生成できます。 SuTI は見習い学習によって強化されており、対象固有の膨大な数の専門家モデルによって生成されたデータから 1 つの見習いモデルが学習されます。具体的には、特定の視覚的主題を中心とした何百万もの画像クラスターをインターネットからマイニングします。これらのクラスターを採用して、それぞれが異なる主題に特化した膨大な数のエキスパート モデルをトレーニングします。次に、見習いモデルの SuTI は、これらの細かく調整された専門家の行動を模倣することを学びます。 SuTI は、最適化ベースの SoTA 手法よりも 20 倍の速さで、高品質でカスタマイズされた被写体固有の画像を生成できます。挑戦的な DreamBench と DreamBench-v2 について、人間による評価では、SuTI が InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBooth などの既存のモデルよりも大幅に優れていることが示されています。
Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with in-context learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by apprenticeship learning, where a single apprentice model is learned from data generated by a massive number of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train a massive number of expert models, each specializing in a different subject. The apprentice model SuTI then learns to imitate the behavior of these fine-tuned experts. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI significantly outperforms existing models like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen and DreamBooth.