外部知識の視覚的質問応答(OKVQA)のタスクには、外部知識を使用して写真や画像に関する自然言語の質問に回答する自動システムが必要です。画像内のエンティティを参照する直示的な参照フレーズを含む多くの視覚的な質問は、「根拠のない」質問として書き直すことができ、既存のテキストベースの質問応答システムで回答できることがわかります。これにより、既存のテキストベースのオープンドメイン質問応答(QA)システムを視覚的な質問応答に再利用できます。この作業では、既存のシステムを(a)画像分析、(b)質問の書き換え、および(c)テキストベースの質問応答に再利用してそのような視覚的な質問に答える、潜在的にデータ効率の高いアプローチを提案します。画像とその画像に関連する質問(視覚的な質問)が与えられた場合、最初に、事前にトレーニングされたオブジェクトとシーン分類子を使用して、画像に存在するエンティティを抽出します。これらの検出されたエンティティを使用して、オープンドメインQAシステムで回答できるように視覚的な質問を書き直すことができます。 2つの書き換え戦略を検討します。(1)マスキングと書き換えにBERTを使用する教師なし方法と、(2)適応型書き換えと強化学習手法を組み合わせてQAシステムからの暗黙的なフィードバックを使用する弱教師ありアプローチです。公開されているOKVQAデータセットで戦略をテストし、トレーニングデータのわずか10%を使用しながら、最先端のモデルで競争力のあるパフォーマンスを取得します。
The task of Outside Knowledge Visual Question Answering (OKVQA) requires an automatic system to answer natural language questions about pictures and images using external knowledge. We observe that many visual questions, which contain deictic referential phrases referring to entities in the image, can be rewritten as "non-grounded" questions and can be answered by existing text-based question answering systems. This allows for the reuse of existing text-based Open Domain Question Answering (QA) Systems for visual question answering. In this work, we propose a potentially data-efficient approach that reuses existing systems for (a) image analysis, (b) question rewriting, and (c) text-based question answering to answer such visual questions. Given an image and a question pertaining to that image (a visual question), we first extract the entities present in the image using pre-trained object and scene classifiers. Using these detected entities, the visual questions can be rewritten so as to be answerable by open domain QA systems. We explore two rewriting strategies: (1) an unsupervised method using BERT for masking and rewriting, and (2) a weakly supervised approach that combines adaptive rewriting and reinforcement learning techniques to use the implicit feedback from the QA system. We test our strategies on the publicly available OKVQA dataset and obtain a competitive performance with state-of-the-art models while using only 10% of the training data.