視覚的質問応答(VQA)は、視覚障害のあるユーザーの支援や画像ベースの検索などの重要なアプリケーションを備えた研究コミュニティにとって非常に興味深いものです。この作業では、VQAタスクを解決するためのシーングラフの使用について説明します。 GQAデータセットで実験を行います。このデータセットは、カウント、構成性、高度な推論機能を必要とする一連の難しい質問を提示し、多数の画像のシーングラフを提供します。シーングラフで使用する画像+質問アーキテクチャを採用し、見えない画像のさまざまなシーングラフ生成手法を評価し、人間が注釈を付けて自動生成したシーングラフを活用するトレーニングカリキュラムを提案し、複数の画像表現から学習するための最新の融合アーキテクチャを構築します。 VQAのシーングラフの使用に関する多面的な研究を紹介し、この作品をこの種のものとしては初めてのものにします。
Visual Question Answering (VQA) is of tremendous interest to the research community with important applications such as aiding visually impaired users and image-based search. In this work, we explore the use of scene graphs for solving the VQA task. We conduct experiments on the GQA dataset which presents a challenging set of questions requiring counting, compositionality and advanced reasoning capability, and provides scene graphs for a large number of images. We adopt image + question architectures for use with scene graphs, evaluate various scene graph generation techniques for unseen images, propose a training curriculum to leverage human-annotated and auto-generated scene graphs, and build late fusion architectures to learn from multiple image representations. We present a multi-faceted study into the use of scene graphs for VQA, making this work the first of its kind.