arXiv reaDer
MuKEA:知識ベースの視覚的質問応答のためのマルチモーダル知識抽出と蓄積
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
知識ベースの視覚的な質問応答には、オープンエンドのクロスモーダルシーンの理解のために外部の知識を関連付ける機能が必要です。既存のソリューションの制限の1つは、テキストのみの知識ベースから関連する知識を取得することです。この知識ベースには、視覚的な理解のための複雑ではあるが不可欠なマルチモーダル知識がなく、一次述語または言語記述によって表現された事実が含まれているだけです。 VQAシナリオのための視覚関連で説明可能なマルチモーダル知識を構築する方法はあまり研究されていません。この論文では、視覚オブジェクトと事実の答えを暗黙の関係と相関させるために、明示的なトリプレットによってマルチモーダル知識を表すMuKEAを提案します。不均一なギャップを埋めるために、補完的なビューからトリプレット表現を学習するための3つの客観的損失を提案します。それは、埋め込み構造、位相関係、および意味空間です。事前トレーニングと微調整の学習戦略を採用することにより、基本的な知識とドメイン固有のマルチモーダル知識の両方が、回答の予測のために徐々に蓄積されます。 OK-VQAとKRVQAという2つの難しい知識が必要なデータセットでは、最先端のデータセットをそれぞれ3.35%と6.08%上回っています。実験結果は、既存の知識ベースによるマルチモーダル知識の補完的な利点と、既存のパイプライン手法に対するエンドツーエンドのフレームワークの利点を証明しています。コードはhttps://github.com/AndersonStra/MuKEAで入手できます。
Knowledge-based visual question answering requires the ability of associating external knowledge for open-ended cross-modal scene understanding. One limitation of existing solutions is that they capture relevant knowledge from text-only knowledge bases, which merely contain facts expressed by first-order predicates or language descriptions while lacking complex but indispensable multimodal knowledge for visual understanding. How to construct vision-relevant and explainable multimodal knowledge for the VQA scenario has been less studied. In this paper, we propose MuKEA to represent multimodal knowledge by an explicit triplet to correlate visual objects and fact answers with implicit relations. To bridge the heterogeneous gap, we propose three objective losses to learn the triplet representations from complementary views: embedding structure, topological relation and semantic space. By adopting a pre-training and fine-tuning learning strategy, both basic and domain-specific multimodal knowledge are progressively accumulated for answer prediction. We outperform the state-of-the-art by 3.35% and 6.08% respectively on two challenging knowledge-required datasets: OK-VQA and KRVQA. Experimental results prove the complementary benefits of the multimodal knowledge with existing knowledge bases and the advantages of our end-to-end framework over the existing pipeline methods. The code is available at https://github.com/AndersonStra/MuKEA.
updated: Thu Mar 17 2022 07:42:14 GMT+0000 (UTC)
published: Thu Mar 17 2022 07:42:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト