arXiv reaDer
Vision-and-LanguageまたはVision-for-Language?マルチモーダル変圧器のクロスモーダル影響について
Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers
事前に訓練された視覚と言語のBERTは、両方のモダリティからの情報を組み合わせた表現を学習することを目的としています。これらのモデルが実際にクロスモーダル情報を統合する程度を評価するために、クロスモーダル入力アブレーションに基づく診断方法を提案します。この方法では、クロスモーダル接地アライメントに基づいて、1つのモダリティからの入力を完全にまたは選択的に除去し、他のモダリティでのモデル予測パフォーマンスを評価します。モデルのパフォーマンスは、モデルの事前トレーニングの目的を反映したモダリティ固有のタスクによって測定されます(テキストのマスクされた言語モデリングなど)。両方のモダリティを使用してクロスモーダル表現を構築することを学習したモデルは、入力がモダリティから欠落している場合、パフォーマンスが低下すると予想されます。最近提案されたモデルは、テキストがアブレーションされたときに視覚オブジェクトのカテゴリを予測するのに比べて、視覚情報がアブレートされたときにテキストを予測するのがはるかに難しいことがわかりました。これは、これらのモデルが対称的にクロスモーダルではないことを示しています。
Pretrained vision-and-language BERTs aim to learn representations that combine information from both modalities. We propose a diagnostic method based on cross-modal input ablation to assess the extent to which these models actually integrate cross-modal information. This method involves ablating inputs from one modality, either entirely or selectively based on cross-modal grounding alignments, and evaluating the model prediction performance on the other modality. Model performance is measured by modality-specific tasks that mirror the model pretraining objectives (e.g. masked language modelling for text). Models that have learned to construct cross-modal representations using both modalities are expected to perform worse when inputs are missing from a modality. We find that recently proposed models have much greater relative difficulty predicting text when visual information is ablated, compared to predicting visual object categories when text is ablated, indicating that these models are not symmetrically cross-modal.
updated: Thu Sep 09 2021 17:47:50 GMT+0000 (UTC)
published: Thu Sep 09 2021 17:47:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト