最近、テキスト ガイドによる画像操作に CLIP (Contrasive Language-Image Pre-Training) モデルを活用することで、かなりの進歩が見られました。ただし、既存のすべての作品は、結果の品質を確保するために追加の生成モデルに依存しています。これは、CLIP だけでは細かいピクセルレベルの変更に関する十分なガイダンス情報を提供できないためです。このホワイト ペーパーでは、微分可能なベクター グラフィックスを使用したテキスト ガイド付き画像操作フレームワークである CLIPVG を紹介します。これは、追加の生成モデルを必要としない最初の CLIP ベースの一般的な画像操作フレームワークでもあります。 CLIPVG は、セマンティックの正確性と合成品質の両方で最先端のパフォーマンスを達成できるだけでなく、既存のすべてのメソッドの機能をはるかに超えるさまざまなアプリケーションをサポートするのに十分な柔軟性があることを示しています。
Considerable progress has recently been made in leveraging CLIP (Contrastive Language-Image Pre-Training) models for text-guided image manipulation. However, all existing works rely on additional generative models to ensure the quality of results, because CLIP alone cannot provide enough guidance information for fine-scale pixel-level changes. In this paper, we introduce CLIPVG, a text-guided image manipulation framework using differentiable vector graphics, which is also the first CLIP-based general image manipulation framework that does not require any additional generative models. We demonstrate that CLIPVG can not only achieve state-of-art performance in both semantic correctness and synthesis quality, but also is flexible enough to support various applications far beyond the capability of all existing methods.