arXiv reaDer
ビジュアルダイアログにおけるマルチストラクチャ常識知識による推論
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog
ビジュアルダイアログでは、エージェントが画像に基づいた人間と会話する必要があります。 Visual Dialogに関する多くの研究は、ダイアログの履歴や画像の内容の理解に焦点を当てていますが、常識に必要なかなりの量の質問は無視されています。これらのシナリオの処理は、常識的な事前知識を必要とする論理的推論に依存します。歴史とイメージを補完する関連する常識的な知識をどのように取り込むかは、依然として重要な課題です。本論文では、多構造常識知識(RMK)による推論による新しいモデルを提案する。私たちのモデルでは、外部の知識は文レベルのファクトとグラフレベルのファクトで表され、ダイアログの履歴と画像の合成のシナリオに適切に適合します。これらのマルチ構造表現に加えて、私たちのモデルは、グラフベースの相互作用とトランスフォーマーベースの融合を介して、関連する知識をキャプチャし、それらをビジョンとセマンティック機能に組み込むことができます。 VisDial v1.0およびVisDialCKデータセットの実験結果と分析は、提案されたモデルが比較方法よりも効果的に優れていることを示しています。
Visual Dialog requires an agent to engage in a conversation with humans grounded in an image. Many studies on Visual Dialog focus on the understanding of the dialog history or the content of an image, while a considerable amount of commonsense-required questions are ignored. Handling these scenarios depends on logical reasoning that requires commonsense priors. How to capture relevant commonsense knowledge complementary to the history and the image remains a key challenge. In this paper, we propose a novel model by Reasoning with Multi-structure Commonsense Knowledge (RMK). In our model, the external knowledge is represented with sentence-level facts and graph-level facts, to properly suit the scenario of the composite of dialog history and image. On top of these multi-structure representations, our model can capture relevant knowledge and incorporate them into the vision and semantic features, via graph-based interaction and transformer-based fusion. Experimental results and analysis on VisDial v1.0 and VisDialCK datasets show that our proposed model effectively outperforms comparative methods.
updated: Sun Apr 10 2022 13:12:10 GMT+0000 (UTC)
published: Sun Apr 10 2022 13:12:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト