arXiv reaDer
ファッションマトリックス: 話すだけで写真を編集
Fashion Matrix: Editing Photos by Just Talking
AI システムの構築における大規模言語モデル (LLM) の利用は、さまざまな分野で大きな注目を集めています。 LLM をファッションの領域に拡張することには、大きな商業的可能性が秘められていますが、ファッション関連の生成における複雑な意味論的な相互作用に起因する固有の課題もあります。この問題を解決するために、私たちは話すだけで写真を編集できる専用の階層型 AI システム「Fashion Matrix」を開発しました。このシステムは、衣類やアクセサリーの交換、色変更、追加、削除など、さまざまな迅速な作業を容易にします。具体的には、Fashion Matrix は基礎的なサポートとして LLM を採用し、ユーザーとの反復的な対話に取り組んでいます。一連のセマンティック セグメンテーション モデル (Grounded-SAM、MattingAnything など) を使用して、ユーザーの指示に基づいて特定の編集マスクを描写します。その後、Visual Foundation モデル (Stable Diffusion、ControlNet など) を活用してテキスト プロンプトとマスクから編集画像を生成し、それによってファッション編集プロセスの自動化が容易になります。実験では、ファッション編集の領域において、機能的に多様な事前トレーニング済みモデルの共同の可能性を探求するファッション マトリックスの卓越した能力を実証しています。
The utilization of Large Language Models (LLMs) for the construction of AI systems has garnered significant attention across diverse fields. The extension of LLMs to the domain of fashion holds substantial commercial potential but also inherent challenges due to the intricate semantic interactions in fashion-related generation. To address this issue, we developed a hierarchical AI system called Fashion Matrix dedicated to editing photos by just talking. This system facilitates diverse prompt-driven tasks, encompassing garment or accessory replacement, recoloring, addition, and removal. Specifically, Fashion Matrix employs LLM as its foundational support and engages in iterative interactions with users. It employs a range of Semantic Segmentation Models (e.g., Grounded-SAM, MattingAnything, etc.) to delineate the specific editing masks based on user instructions. Subsequently, Visual Foundation Models (e.g., Stable Diffusion, ControlNet, etc.) are leveraged to generate edited images from text prompts and masks, thereby facilitating the automation of fashion editing processes. Experiments demonstrate the outstanding ability of Fashion Matrix to explores the collaborative potential of functionally diverse pre-trained models in the domain of fashion editing.
updated: Tue Jul 25 2023 04:06:25 GMT+0000 (UTC)
published: Tue Jul 25 2023 04:06:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト