arXiv reaDer
キャプションを超えた画像からのテキスト生成の進歩について:自己合理化のケーススタディ
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization
視覚モダリティと事前トレーニング済みの言語モデルを組み合わせると、画像のキャプションなどの単純な説明タスクに驚くほど効果的です。しかし、より一般的なテキスト生成はとらえどころのないままです。これらのモデルは、より複雑な生成タスク、つまりテキストと画像の両方の条件付けでどのように機能するのでしょうか?マルチモーダル モデルは単に視覚的に適合された言語モデルですか、それともモダリティについて共同で推論しますか?これらの質問を、(i) VQA-X での視覚的な質問応答、(ii) VCR での視覚的な常識的推論、および ( iii) e-SNLI-VE における視覚的テキスト含意。最近のユニモーダルな進歩、CLIP 画像表現、および言語モデルのスケーリングは、マルチモーダル タスクにおける自己合理化を一貫して改善しないことを示します。タスク、データセット、およびデータ サイズの微調整全体にわたって、単一のモデル タイプが普遍的に最適に機能することはありません。私たちの調査結果は、画像キャプションを超えて画像やテキストからテキスト生成を移動する、新しい一般的なバックボーンアプローチの必要性を動機付けています.
Combining the visual modality with pretrained language models has been surprisingly effective for simple descriptive tasks such as image captioning. More general text generation however remains elusive. We take a step back and ask: How do these models work for more complex generative tasks, i.e. conditioning on both text and images? Are multimodal models simply visually adapted language models, or do they combine they reason jointly over modalities? We investigate these questions in the context of self-rationalization (jointly generating task labels/answers and free-text explanations) of three tasks: (i) visual question answering in VQA-X, (ii) visual commonsense reasoning in VCR, and (iii) visual-textual entailment in e-SNLI-VE. We show that recent unimodal advances, CLIP image representations and scaling of language models, do not consistently improve self-rationalization in multimodal tasks. We find that no single model type works universally best across tasks, datasets, and finetuning data sizes. Our findings motivate the need for novel general backbones approach that move text generation from images and text beyond image captioning.
updated: Sat Oct 22 2022 19:54:28 GMT+0000 (UTC)
published: Tue May 24 2022 00:52:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト