arXiv reaDer
左から右までわかりますか? VQAに新たな挑戦を提示
Can you even tell left from right? Presenting a new challenge for VQA
Visual Question Answering(VQA)には、モデルの長所と短所を評価する手段が必要です。このような評価の1つの側面は、構図の一般化の評価、またはシーンのセットアップがトレーニングセットとは異なるシーンでモデルが適切に応答する能力です。したがって、この目的のために、トレインセットとテストセットの構成が大幅に異なるデータセットが必要です。この作業では、組成分離のいくつかの定量的測定値を提示し、VQAの一般的なデータセットは適切な評価者ではないことを発見しました。これを解決するために、VQAの合成データセットであるUncommon Objects in Unseen Configurations(UOUC)を紹介します。 UOUCは、構成的に十分に分離されていると同時に、かなり複雑です。 UOUCのオブジェクトクラスは、ダンジョンズアンドドラゴンズのゲームの528人のキャラクターから取得した380個のクラスで構成されています。 UOUCの列車セットは200,000シーンで構成されています。一方、テストセットは30,000シーンで構成されています。構成の一般化、単純な推論、暗記を研究するために、UOUCの各シーンには最大10個の新しい質問が注釈として付けられています。これらは、空間的関係、シーンへの仮説的な変化、カウント、比較、暗記、および記憶に基づく推論を扱います。合計で、UOUCは200万を超える質問を提示します。 UOUCは、VQAのパフォーマンスの高いモデルに対する強力な課題でもあります。 VQAの最近のモデルの評価では、構成の一般化が不十分であり、単純な推論に対する能力が比較的低いことが示されています。これらの結果は、UOUCがVQAの強力なベンチマークとなることにより、研究の進歩につながる可能性があることを示唆しています。
Visual Question Answering (VQA) needs a means of evaluating the strengths and weaknesses of models. One aspect of such an evaluation is the evaluation of compositional generalisation, or the ability of a model to answer well on scenes whose scene-setups are different from the training set. Therefore, for this purpose, we need datasets whose train and test sets differ significantly in composition. In this work, we present several quantitative measures of compositional separation and find that popular datasets for VQA are not good evaluators. To solve this, we present Uncommon Objects in Unseen Configurations (UOUC), a synthetic dataset for VQA. UOUC is at once fairly complex while also being well-separated, compositionally. The object-class of UOUC consists of 380 clasess taken from 528 characters from the Dungeons and Dragons game. The train set of UOUC consists of 200,000 scenes; whereas the test set consists of 30,000 scenes. In order to study compositional generalisation, simple reasoning and memorisation, each scene of UOUC is annotated with up to 10 novel questions. These deal with spatial relationships, hypothetical changes to scenes, counting, comparison, memorisation and memory-based reasoning. In total, UOUC presents over 2 million questions. UOUC also finds itself as a strong challenge to well-performing models for VQA. Our evaluation of recent models for VQA shows poor compositional generalisation, and comparatively lower ability towards simple reasoning. These results suggest that UOUC could lead to advances in research by being a strong benchmark for VQA.
updated: Tue Mar 15 2022 05:58:21 GMT+0000 (UTC)
published: Tue Mar 15 2022 05:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト