説明と高次の推論機能は、さまざまなレベルの推論の複雑さ(たとえば、遊んでいる少女の近くにいる犬は何ですか)で現実世界の視覚的な質問に答えるために重要であり、ユーザーの信頼性を理解して診断するために重要ですシステム。精度メトリックのみの自然画像の現在のVQAベンチマークは、データセットバイアスを活用するようにモデルをプッシュすることになり、解釈可能な正当性を提供できず、高レベルの質問応答の進歩をいくつか妨げます。この作業では、説明可能な高次の視覚的質問推論能力を評価するための3つの顕著なメリットを備えた新しいHVQRベンチマークを提案します。1)質問には、1つまたは2つの関係トリプレットが含まれることが多いため、もっともらしい答えを予測します。 2)画像シーングラフと常識知識ベースで構築された多段階推論プロセスの明示的な評価を提供します。 3)大規模な知識ベースの各関係トリプレットは、すべての質問の中で1回だけ出現します。これは、トレーニングセットにすでに存在する知識ベースを過剰に適合させようとする既存のネットワークに課題をもたらし、目に見えない質問を処理するモデルを実施し、知識ファクトの使用。また、大規模な知識ベースを介した多段階推論プロセスを視覚的質問推論に組み込む新しい知識ルーティングモジュラーネットワーク(KM-net)を提案します。大規模なデータセット分析とHVQRベンチマークの既存モデルとの比較により、ベンチマークが説明可能な評価、包括的な推論要件、VQAシステムの現実的な課題、およびKM-netの精度と説明能力の優位性を提供していることがわかります。
Explanation and high-order reasoning capabilities are crucial for real-world visual question answering with diverse levels of inference complexity (e.g., what is the dog that is near the girl playing with?) and important for users to understand and diagnose the trustworthiness of the system. Current VQA benchmarks on natural images with only an accuracy metric end up pushing the models to exploit the dataset biases and cannot provide any interpretable justification, which severally hinders advances in high-level question answering. In this work, we propose a new HVQR benchmark for evaluating explainable and high-order visual question reasoning ability with three distinguishable merits: 1) the questions often contain one or two relationship triplets, which requires the model to have the ability of multistep reasoning to predict plausible answers; 2) we provide an explicit evaluation on a multistep reasoning process that is constructed with image scene graphs and commonsense knowledge bases; and 3) each relationship triplet in a large-scale knowledge base only appears once among all questions, which poses challenges for existing networks that often attempt to overfit the knowledge base that already appears in the training set and enforces the models to handle unseen questions and knowledge fact usage. We also propose a new knowledge-routed modular network (KM-net) that incorporates the multistep reasoning process over a large knowledge base into visual question reasoning. An extensive dataset analysis and comparisons with existing models on the HVQR benchmark show that our benchmark provides explainable evaluations, comprehensive reasoning requirements and realistic challenges of VQA systems, as well as our KM-net's superiority in terms of accuracy and explanation ability.