arXiv reaDer
写真は千の言葉に値する:多様なキャプションと豊富な画像生成のための統合システム
A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation
クリエイティブな画像とテキストを生成するAIシステムは、人間の並外れた能力を模倣して、ユーザーに多様で包括的なキャプションの提案と豊富な画像の作成を提供します。この作品では、多様なキャプションと豊かな画像の両方を生成するためのこのようなAI作成システムを示します。ユーザーが画像を想像して複数のキャプションに関連付けると、システムはすべてのキャプションを忠実に反映するようにリッチな画像をペイントします。同様に、ユーザーが画像をアップロードすると、システムは複数の多様なキャプションで画像を表示します。この目標を達成するために、統一されたマルチモーダルフレームワークを提案します。具体的には、私たちのフレームワークは、複数のキャプションを入力として受け入れることでリッチな画像作成をサポートするTransformerネットワークを使用して、画像とテキストの表現を共同でモデル化します。入力キャプション間の関係を考慮してトレーニングの多様性を促進し、非自己回帰デコード戦略を採用してリアルタイムの推論を可能にします。これらに基づいて、私たちのシステムは多様なキャプションと豊富な画像生成の両方をサポートします。私たちのコードはオンラインで入手できます。
A creative image-and-text generative AI system mimics humans' extraordinary abilities to provide users with diverse and comprehensive caption suggestions, as well as rich image creations. In this work, we demonstrate such an AI creation system to produce both diverse captions and rich images. When users imagine an image and associate it with multiple captions, our system paints a rich image to reflect all captions faithfully. Likewise, when users upload an image, our system depicts it with multiple diverse captions. We propose a unified multi-modal framework to achieve this goal. Specifically, our framework jointly models image-and-text representations with a Transformer network, which supports rich image creation by accepting multiple captions as input. We consider the relations among input captions to encourage diversity in training and adopt a non-autoregressive decoding strategy to enable real-time inference. Based on these, our system supports both diverse captions and rich images generations. Our code is available online.
updated: Tue Oct 19 2021 06:10:42 GMT+0000 (UTC)
published: Tue Oct 19 2021 06:10:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト