最近のテキストから画像への生成モデルは、忠実度の高いフォトリアリスティックな画像の生成において有望な結果を示しています。同時に、データ不足の問題により、高品質のデータ拡張に AIGC テクノロジーを採用することへの関心が高まっています。ただし、このパラダイムには、適切に設計された迅速なエンジニアリングが必要ですが、コストのかからないデータ拡張とラベル付けはまだ検討されていません。タスク ガイダンスにおける LLM の強力な機能に触発されて、ChatGenImage という名前の注釈付きデータ拡張の新しいパラダイムを提案します。その背後にある中心的なアイデアは、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための非常に効果的でユーザーフレンドリーなパイプラインを確立することです。この研究では、より制御可能な画像生成を実現するために LLM が AIGC モデルとどのように通信するかを広範囲に研究し、さまざまな下流タスクの自動データ拡張のために LLM を連携させる初めての試みを行います。最後に、ChatGenImage フレームワークから得られた興味深い結果を提示し、体系的な視覚適応のための合成データの強力な可能性を実証します。コードは https://github.com/Yuqifan1117/Labal-Anything-Pipeline で入手できます。
Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images. In parallel, the problem of data scarcity has brought a growing interest in employing AIGC technology for high-quality data expansion. However, this paradigm requires well-designed prompt engineering that cost-less data expansion and labeling remain under-explored. Inspired by LLM's powerful capability in task guidance, we propose a new paradigm of annotated data expansion named as ChatGenImage. The core idea behind it is to leverage the complementary strengths of diverse models to establish a highly effective and user-friendly pipeline for interactive data augmentation. In this work, we extensively study how LLMs communicate with AIGC model to achieve more controllable image generation and make the first attempt to collaborate them for automatic data augmentation for a variety of downstream tasks. Finally, we present fascinating results obtained from our ChatGenImage framework and demonstrate the powerful potential of our synthetic data for systematic vision adaptation. Our codes are available at https://github.com/Yuqifan1117/Labal-Anything-Pipeline.