Unifying Multimodal Transformer for Bi-directional Image and Text Generation
私たちは、自然に双方向のタスクである、画像からテキストへの生成とテキストから画像への生成の共同学習を研究します。典型的な既存の作品は、タスクごとに2つの個別のタスク固有のモデルを設計するため、コストのかかる設計作業が必要になります。この作業では、双方向のタスクを共同で研究するために、単一のマルチモーダルモデルに基づく統合された画像とテキストの生成フレームワークを提案します。強力なパフォーマンスとタスクに依存しない設計のために、統合アーキテクチャとしてTransformerを採用しています。具体的には、両方のタスクをシーケンス生成タスクとして定式化します。ここでは、画像とテキストをトークンの統合シーケンスとして表し、Transformerはマルチモーダルインタラクションを学習してシーケンスを生成します。さらに、Transformerベースの統合フレームワークを改善するために、2レベルの粒度機能表現とシーケンスレベルのトレーニングを提案します。実験によると、私たちのアプローチは、以前のTransformerベースのモデルX-LXMERTのFIDをテキストから画像への生成で37.0から29.9(低いほど良い)に大幅に改善し、微調整された画像ではCIDEr-Dスコアを100.9%から122.6%に改善します。 -MS-COCOデータセットでのテキストへの生成。私たちのコードはオンラインで入手できます。
We study the joint learning of image-to-text and text-to-image generations, which are naturally bi-directional tasks. Typical existing works design two separate task-specific models for each task, which impose expensive design efforts. In this work, we propose a unified image-and-text generative framework based on a single multimodal model to jointly study the bi-directional tasks. We adopt Transformer as our unified architecture for its strong performance and task-agnostic design. Specifically, we formulate both tasks as sequence generation tasks, where we represent images and text as unified sequences of tokens, and the Transformer learns multimodal interactions to generate sequences. We further propose two-level granularity feature representations and sequence-level training to improve the Transformer-based unified framework. Experiments show that our approach significantly improves previous Transformer-based model X-LXMERT's FID from 37.0 to 29.9 (lower is better) for text-to-image generation, and improves CIDEr-D score from 100.9% to 122.6% for fine-tuned image-to-text generation on the MS-COCO dataset. Our code is available online.
updated: Tue Oct 19 2021 06:01:24 GMT+0000 (UTC)
published: Tue Oct 19 2021 06:01:24 GMT+0000 (UTC)
