配布外データへの一般化は、ビジュアル質問応答(VQA)モデルの問題でした。新しい質問への一般化を測定するために、それらを「スキル」と「概念」に分けることを提案します。 「スキル」は、カウントや属性認識などの視覚的なタスクであり、オブジェクトや人など、質問で言及されている「概念」に適用されます。 VQAメソッドは、特定の構成がトレーニングで見られたかどうかに関係なく、新しい方法でスキルと概念を構成できる必要がありますが、既存のモデルは新しい構成の処理に向けて多くの改善が必要であることを示しています。根拠のある概念表現を学習し、スキルのエンコードを概念のエンコードから解きほぐすことによって、モデル内でこれら2つの要素を暗黙的に分離するスキルと概念の構成を学習するための新しい方法を提示します。これらのプロパティは、外部アノテーションに依存せず、ラベルのない画像と質問のペアから学習できる、新しい対照的な学習手順で適用されます。実験は、組成および接地性能を改善するための私たちのアプローチの有効性を示しています。
Generalization to out-of-distribution data has been a problem for Visual Question Answering (VQA) models. To measure generalization to novel questions, we propose to separate them into "skills" and "concepts". "Skills" are visual tasks, such as counting or attribute recognition, and are applied to "concepts" mentioned in the question, such as objects and people. VQA methods should be able to compose skills and concepts in novel ways, regardless of whether the specific composition has been seen in training, yet we demonstrate that existing models have much to improve upon towards handling new compositions. We present a novel method for learning to compose skills and concepts that separates these two factors implicitly within a model by learning grounded concept representations and disentangling the encoding of skills from that of concepts. We enforce these properties with a novel contrastive learning procedure that does not rely on external annotations and can be learned from unlabeled image-question pairs. Experiments demonstrate the effectiveness of our approach for improving compositional and grounding performance.