Guiding Visual Question Generation
従来の視覚的質問生成(VQG)では、ほとんどの画像に質問を生成できる複数の概念(オブジェクトやカテゴリなど)がありますが、モデルは、トレーニングデータで指定された概念の任意の選択を模倣するようにトレーニングされます。これにより、トレーニングが困難になり、評価の問題も発生します。ほとんどの画像には複数の有効な質問が存在しますが、人間の参照によってキャプチャされるのは1つまたは少数のみです。 Guiding Visual Question Generationを紹介します。これは、質問のタイプと調査する必要のあるオブジェクトに対する期待に基づいて、カテゴリ情報に基づいて質問ジェネレーターを条件付けるVQGのバリアントです。 2つのバリエーションを提案します。(i)アクター(人間または自動)が質問を生成するオブジェクトとカテゴリを選択できるようにする明示的にガイドされたモデル。 (ii)離散潜在変数に基づいて、条件付けするオブジェクトとカテゴリを学習する暗黙的にガイドされたモデル。提案されたモデルは、回答カテゴリの拡張VQAデータセットで評価され、定量的な結果は、現在の最先端技術よりも大幅に改善されていることを示しています(9 BLEU-4以上の増加)。人間による評価は、ガイダンスが文法的に一貫性があり、特定の画像やオブジェクトに関連する質問の生成に役立つことを検証します。
In traditional Visual Question Generation (VQG), most images have multiple concepts (e.g. objects and categories) for which a question could be generated, but models are trained to mimic an arbitrary choice of concept as given in their training data. This makes training difficult and also poses issues for evaluation -- multiple valid questions exist for most images but only one or a few are captured by the human references. We present Guiding Visual Question Generation - a variant of VQG which conditions the question generator on categorical information based on expectations on the type of question and the objects it should explore. We propose two variants: (i) an explicitly guided model that enables an actor (human or automated) to select which objects and categories to generate a question for; and (ii) an implicitly guided model that learns which objects and categories to condition on, based on discrete latent variables. The proposed models are evaluated on an answer-category augmented VQA dataset and our quantitative results show a substantial improvement over the current state of the art (over 9 BLEU-4 increase). Human evaluation validates that guidance helps the generation of questions that are grammatically coherent and relevant to the given image and objects.
updated: Fri Oct 15 2021 17:38:08 GMT+0000 (UTC)
published: Fri Oct 15 2021 17:38:08 GMT+0000 (UTC)
