arXiv reaDer
冒険者のトレジャーハント:シーングラフに基づく視覚的に接地された構成的な視覚的質問応答のための透明なシステム
Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs
VQAの推論プロセスにおけるシステムの透明性と視覚的根拠を改善するという明確な目標を掲げて、シーングラフに基づく構成VQAのタスクのためのモジュラーシステムを提示します。私たちのシステムは「Adventurer'sTreasureHunt」(またはATH)と呼ばれ、モデルの答えの検索手順と冒険者の宝の検索の間にある類推にちなんで名付けられました。 ATHは、次の3つの特徴を念頭に置いて開発しました。1。設計上、ATHを使用すると、各サブコンポーネントがVQA全体のパフォーマンスに与える影響と、個々のサブタスクのパフォーマンスを明示的に定量化できます。 2.宝探しの後に検索タスクをモデル化することにより、ATHは本質的に、処理された質問に対して、視覚的に根拠のある明示的な推論パスを生成します。 3. ATHは、GQAでトレーニングされた最初のVQAシステムであり、事前に固定された回答語彙に対する特別に学習された分類子の出力分布から1つを選択する代わりに、視覚知識ベースに直接クエリを実行して回答を動的に抽出します。すべてのコンポーネントに関する詳細な結果と、GQAデータセットの全体的なVQAパフォーマンスへのそれらの寄与を報告し、ATHがすべての調査済みシステムの中で最高の視覚的接地スコアを達成することを示します。
With the expressed goal of improving system transparency and visual grounding in the reasoning process in VQA, we present a modular system for the task of compositional VQA based on scene graphs. Our system is called "Adventurer's Treasure Hunt" (or ATH), named after an analogy we draw between our model's search procedure for an answer and an adventurer's search for treasure. We developed ATH with three characteristic features in mind: 1. By design, ATH allows us to explicitly quantify the impact of each of the sub-components on overall VQA performance, as well as their performance on their individual sub-task. 2. By modeling the search task after a treasure hunt, ATH inherently produces an explicit, visually grounded inference path for the processed question. 3. ATH is the first GQA-trained VQA system that dynamically extracts answers by querying the visual knowledge base directly, instead of selecting one from a specially learned classifier's output distribution over a pre-fixed answer vocabulary. We report detailed results on all components and their contributions to overall VQA performance on the GQA dataset and show that ATH achieves the highest visual grounding score among all examined systems.
updated: Mon Jun 28 2021 08:39:34 GMT+0000 (UTC)
published: Mon Jun 28 2021 08:39:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト