Visual Commonsense Reasoning(VCR)は、質問画像の入力が与えられた場合に、対応する論理的根拠を使用して回答を予測します。 VCRは、視覚的な質問応答、自動車両システム、臨床意思決定支援など、幅広いアプリケーションで最近導入された視覚的なシーン理解タスクです。 VCRタスクを解決するための以前のアプローチは、一般に、長い依存関係でエンコードされたモデルを使用したメモリの事前トレーニングまたは活用に依存しています。ただし、これらのアプローチは、一般化可能性と事前知識の欠如に悩まされています。この論文では、動的ワーキングメモリベースの認知VCRネットワークを提案します。これは、文の間に蓄積された常識を保存して、推論のための事前知識を提供します。広範な実験は、提案されたモデルがベンチマークVCRデータセットの既存の方法に比べて大幅な改善をもたらすことを示しています。さらに、提案されたモデルは、視覚的な常識的な推論への直感的な解釈を提供します。私たちのメカニズムのPython実装は、https://github.com/tanjatang/DMVCRで公開されています。
Visual Commonsense Reasoning (VCR) predicts an answer with corresponding rationale, given a question-image input. VCR is a recently introduced visual scene understanding task with a wide range of applications, including visual question answering, automated vehicle systems, and clinical decision support. Previous approaches to solving the VCR task generally rely on pre-training or exploiting memory with long dependency relationship encoded models. However, these approaches suffer from a lack of generalizability and prior knowledge. In this paper we propose a dynamic working memory based cognitive VCR network, which stores accumulated commonsense between sentences to provide prior knowledge for inference. Extensive experiments show that the proposed model yields significant improvements over existing methods on the benchmark VCR dataset. Moreover, the proposed model provides intuitive interpretation into visual commonsense reasoning. A Python implementation of our mechanism is publicly available at https://github.com/tanjatang/DMVCR