arXiv reaDer
DU-VLG:デュアルシーケンス間事前トレーニングによるビジョンと言語の生成の統合
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training
モデル構造と事前トレーニングの目的の制限により、既存のビジョンと言語の生成モデルでは、双方向の生成を通じてペアワイズ画像とテキストを利用できません。本論文では、シーケンス生成問題として視覚と言語の生成を統合するフレームワークであるDU-VLGを提案します。 DU-VLGは、マルチモーダルノイズ除去オートエンコーダタスクとモダリティ変換タスクという、新しいデュアル事前トレーニングタスクでトレーニングされています。画像の理解と生成の間のギャップを埋めるために、私たちはさらに新しいコミットメントロスを設計します。画像のキャプションとテキストから画像への生成データセットのトレーニング前の目標を比較します。結果は、DU-VLGが、一方向の生成目標でトレーニングされたバリアントまたはコミットメントを失うことのないバリアントよりも優れたパフォーマンスをもたらすことを示しています。また、3つのビジョンと言語の生成タスクで、以前の最先端のシステムと比較して高いスコアを取得します。さらに、人間の裁判官は、私たちのモデルが実際の関連性のある画像と忠実で有益なキャプションを生成することをさらに確認します。
Due to the limitations of the model structure and pre-training objectives, existing vision-and-language generation models cannot utilize pair-wise images and text through bi-directional generation. In this paper, we propose DU-VLG, a framework which unifies vision-and-language generation as sequence generation problems. DU-VLG is trained with novel dual pre-training tasks: multi-modal denoising autoencoder tasks and modality translation tasks. To bridge the gap between image understanding and generation, we further design a novel commitment loss. We compare pre-training objectives on image captioning and text-to-image generation datasets. Results show that DU-VLG yields better performance than variants trained with uni-directional generation objectives or the variant without the commitment loss. We also obtain higher scores compared to previous state-of-the-art systems on three vision-and-language generation tasks. In addition, human judges further confirm that our model generates real and relevant images as well as faithful and informative captions.
updated: Thu Mar 17 2022 03:18:22 GMT+0000 (UTC)
published: Thu Mar 17 2022 03:18:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト