多肢選択式VQAは、最近、研究者やエンドユーザーからますます注目を集めています。大規模な多肢選択式VQAデータを自動的に構築する需要が高まるにつれて、コンテキストイメージ、質問、および正解を前提として、挑戦的でありながら意味のあるディストラクタの生成に焦点を当てた、VQAのテキストディストラクタ生成(DG-VQA)と呼ばれる新しいタスクを導入します。 DG-VQAタスクは、そのようなリソースがほとんど利用できないため、グラウンドトゥルーストレーニングサンプルなしでディストラクタを生成することを目的としています。 DG-VQAに監視なしで取り組むために、強化学習(RL)ベースのフレームワークであるGobbetを提案します。これは、事前にトレーニングされたVQAモデルを、ディストラクタ生成プロセスをガイドする代替知識ベースとして利用します。 Gobbetでは、事前にトレーニングされたVQAモデルがRL設定の環境として機能し、入力マルチモーダルクエリにフィードバックを提供します。一方、ニューラルディストラクタジェネレータは、それに応じてアクションを実行するエージェントとして機能します。生成されたディストラクタの品質の指標として、既存のVQAモデルのパフォーマンス低下を使用することを提案します。一方、AIモデルが予測不可能なオープンドメインのシナリオやセキュリティに敏感なアプリケーションに適用される場合、堅牢性がますます重要になるため、データ拡張実験を通じて生成されたディストラクタの有用性を示します。さらに、Gobbetによって生成されたディストラクタが既存のモデルをだますことができる要因について手動のケーススタディを実施します。
Multiple-choice VQA has drawn increasing attention from researchers and end-users recently. As the demand for automatically constructing large-scale multiple-choice VQA data grows, we introduce a novel task called textual Distractors Generation for VQA (DG-VQA) focusing on generating challenging yet meaningful distractors given the context image, question, and correct answer. The DG-VQA task aims at generating distractors without ground-truth training samples since such resources are rarely available. To tackle the DG-VQA unsupervisedly, we propose Gobbet, a reinforcement learning(RL) based framework that utilizes pre-trained VQA models as an alternative knowledge base to guide the distractor generation process. In Gobbet, a pre-trained VQA model serves as the environment in RL setting to provide feedback for the input multi-modal query, while a neural distractor generator serves as the agent to take actions accordingly. We propose to use existing VQA models' performance degradation as indicators of the quality of generated distractors. On the other hand, we show the utility of generated distractors through data augmentation experiments, since robustness is more and more important when AI models apply to unpredictable open-domain scenarios or security-sensitive applications. We further conduct a manual case study on the factors why distractors generated by Gobbet can fool existing models.