arXiv reaDer
マルチモーダルグラウンディングにおけるデータセット間のシフトを評価するための質問の生成
Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal Grounding
視覚的質問応答(VQA)は、入力画像に関する自然言語の質問に答えるマルチモーダルタスクです。クロスデータセット適応方法により、より大きなトレインサンプルを含むソースデータセットから、トレーニングセットが制限されているターゲットデータセットに知識を転送することができます。あるデータセットトレインセットでトレーニングされたVQAモデルが別のデータセットトレインセットへの適応に失敗した場合、画像分布の不一致や質問分布の不一致など、さまざまな理由が存在する可能性があるため、ドメインの不一致の根本的な原因を特定するのは困難です。 UCLAでは、VQAモデルのクロスデータセット適応機能を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいます。
Visual question answering (VQA) is the multi-modal task of answering natural language questions about an input image. Through cross-dataset adaptation methods, it is possible to transfer knowledge from a source dataset with larger train samples to a target dataset where training set is limited. Suppose a VQA model trained on one dataset train set fails in adapting to another, it is hard to identify the underlying cause of domain mismatch as there could exists a multitude of reasons such as image distribution mismatch and question distribution mismatch. At UCLA, we are working on a VQG module that facilitate in automatically generating OOD shifts that aid in systematically evaluating cross-dataset adaptation capabilities of VQA models.
updated: Mon Jan 24 2022 12:42:30 GMT+0000 (UTC)
published: Mon Jan 24 2022 12:42:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト