テキストから画像へのモデル (T2I) は、ユーザーが自然言語を通じて創造的なプロセスを導くことを可能にすることで、新しいレベルの柔軟性を提供します。ただし、これらのモデルをユーザー提供のビジュアル コンセプトに合わせてパーソナライズすることは、依然として困難な問題です。 T2I パーソナライゼーションのタスクには、創造的な制御を可能にしながら高い視覚的忠実度を維持する、単一の画像に複数のパーソナライズされたコンセプトを組み合わせる、小さなモデル サイズを維持するなど、複数の難しい課題があります。 Perfusion は、基礎となる T2I モデルに動的なランク 1 更新を使用してこれらの課題に対処する T2I パーソナライゼーション手法です。 Perfusion は、新しい概念のクロスアテンション キーを上位のカテゴリに「ロック」する新しいメカニズムを導入することで、オーバーフィッティングを回避します。さらに、推論時に学習した概念の影響を制御し、複数の概念を組み合わせることができる、ゲーテッド ランク 1 アプローチを開発します。これにより、現在の最先端技術よりも 5 桁小さい、単一の 100 KB のトレーニング済みモデルを使用して、ビジュアルの忠実度とテキストの配置の実行時効率のバランスを取ることができます。さらに、追加のトレーニングなしで、パレート フロント全体のさまざまな操作点にまたがることができます。最後に、Perfusion が定性的にも定量的にも強力なベースラインより優れていることを示します。重要なことに、キーロックは従来のアプローチと比較して新しい結果をもたらし、ワンショット設定であっても、パーソナライズされたオブジェクトの相互作用を前例のない方法で描写できます。
Text-to-image models (T2I) offer a new level of flexibility by allowing users to guide the creative process through natural language. However, personalizing these models to align with user-provided visual concepts remains a challenging problem. The task of T2I personalization poses multiple hard challenges, such as maintaining high visual fidelity while allowing creative control, combining multiple personalized concepts in a single image, and keeping a small model size. We present Perfusion, a T2I personalization method that addresses these challenges using dynamic rank-1 updates to the underlying T2I model. Perfusion avoids overfitting by introducing a new mechanism that "locks" new concepts' cross-attention Keys to their superordinate category. Additionally, we develop a gated rank-1 approach that enables us to control the influence of a learned concept during inference time and to combine multiple concepts. This allows runtime-efficient balancing of visual-fidelity and textual-alignment with a single 100KB trained model, which is five orders of magnitude smaller than the current state of the art. Moreover, it can span different operating points across the Pareto front without additional training. Finally, we show that Perfusion outperforms strong baselines in both qualitative and quantitative terms. Importantly, key-locking leads to novel results compared to traditional approaches, allowing to portray personalized object interactions in unprecedented ways, even in one-shot settings.