arXiv reaDer
キャプションを超えた画像からのテキスト生成の進歩について:自己合理化の事例研究
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization
事前に訓練された言語モデルの成功を受けて、ビジョンと言語の統合が注目を集めています。それにもかかわらず、新しいマルチモーダルモデルの一部は、画像を条件としたテキスト生成に適しています。この少数派は通常、画像のキャプション、つまり画像に明示的に表示されるものを説明することを目的とした画像のみを条件とするテキスト生成タスクのために開発および評価されます。このホワイトペーパーでは、一歩下がって質問します。これらのモデルは、テキストと画像の両方を条件として、より複雑な生成タスクに対してどのように機能するのでしょうか。共同マルチモーダル事前トレーニング、視覚的に適応された事前トレーニングされた言語モデル、またはこれら2つのアプローチを組み合わせたモデルに基づくモデルは、そのようなタスクに対してより有望ですか?これらの質問は、(i)VQA-Xでの視覚的な質問応答、(ii)VCRでの視覚的な常識的な推論、および(i)3つのタスクの自己合理化(タスクラベル/回答とフリーテキストの説明を共同で生成する)のコンテキストで対処します。 iii)E-SNLI-VEの視覚的テキスト含意。各モダリティ、CLIP画像表現、言語モデルのスケーリングにおける最近の進歩は、マルチモーダル入力を使用したタスクのマルチモーダル自己合理化を一貫して改善しないことを示します。また、タスク/データセットおよびデータサイズの微調整全体で普遍的に最適に機能するモデルタイプはないことも確認しています。私たちの調査結果は、画像からのテキスト生成と画像のキャプションを超えたテキストを進めるために構築できるバックボーンモデリングアプローチを必要としています。
Integrating vision and language has gained notable attention following the success of pretrained language models. Despite that, a fraction of emerging multimodal models is suitable for text generation conditioned on images. This minority is typically developed and evaluated for image captioning, a text generation task conditioned solely on images with the goal to describe what is explicitly visible in an image. In this paper, we take a step back and ask: How do these models work for more complex generative tasks, conditioned on both text and images? Are models based on joint multimodal pretraining, visually adapted pretrained language models, or models that combine these two approaches, more promising for such tasks? We address these questions in the context of self-rationalization (jointly generating task labels/answers and free-text explanations) of three tasks: (i) visual question answering in VQA-X, (ii) visual commonsense reasoning in VCR, and (iii) visual-textual entailment in E-SNLI-VE. We show that recent advances in each modality, CLIP image representations and scaling of language models, do not consistently improve multimodal self-rationalization of tasks with multimodal inputs. We also observe that no model type works universally the best across tasks/datasets and finetuning data sizes. Our findings call for a backbone modelling approach that can be built on to advance text generation from images and text beyond image captioning.
updated: Tue May 24 2022 00:52:40 GMT+0000 (UTC)
published: Tue May 24 2022 00:52:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト