arXiv reaDer
ゼロショットのテキストから画像への生成
Zero-Shot Text-to-Image Generation
テキストから画像への生成は、従来、固定データセットでトレーニングするためのより適切なモデリングの仮定を見つけることに重点を置いてきました。これらの仮定には、複雑なアーキテクチャ、補助損失、またはトレーニング中に提供されるオブジェクトパーツラベルやセグメンテーションマスクなどのサイド情報が含まれる場合があります。テキストトークンと画像トークンを単一のデータストリームとして自己回帰モデル化するトランスフォーマーに基づく、このタスクの簡単なアプローチについて説明します。十分なデータと規模を備えた当社のアプローチは、ゼロショット方式で評価した場合、以前のドメイン固有のモデルと競合します。
Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentation masks supplied during training. We describe a simple approach for this task based on a transformer that autoregressively models the text and image tokens as a single stream of data. With sufficient data and scale, our approach is competitive with previous domain-specific models when evaluated in a zero-shot fashion.
updated: Fri Feb 26 2021 23:26:05 GMT+0000 (UTC)
published: Wed Feb 24 2021 06:42:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト