arXiv reaDer
VQAのビジョンボトルネックの実験的研究
An experimental study of the vision-bottleneck in VQA
視覚と言語を組み合わせた多くのタスクと同様に、両方のモダリティが視覚的質問応答(VQA)で重要な役割を果たします。タスクを適切に解決するには、特定のモデルが提案された画像の内容と質問の性質の両方を理解する必要があります。問題のもう一つの明らかに重要な部分であるモダリティ間の融合は高度に研究されてきましたが、ビジョンの部分は最近の研究ではあまり注目されていません。 VQAの現在の最先端の方法は、主に既成のオブジェクト検出器に依存しており、オブジェクト境界ボックスと埋め込みのセットを提供します。これらは、推論モジュールを介して質問語の埋め込みと組み合わされます。この論文では、画像から抽出された視覚オブジェクトの量と質の両方を実験して、VQAのビジョンボトルネックの詳細な研究を提案します。また、質問に答えるために必要なオブジェクトに関する情報を、推論モジュールで直接、およびオブジェクト選択段階の早い段階で組み込むための2つの方法の影響を調査します。この作業は、VQAのコンテキストでのビジョンの重要性、およびVQAで使用されるビジョンメソッドを目前のタスクに合わせて調整することの関心を強調しています。
As in many tasks combining vision and language, both modalities play a crucial role in Visual Question Answering (VQA). To properly solve the task, a given model should both understand the content of the proposed image and the nature of the question. While the fusion between modalities, which is another obviously important part of the problem, has been highly studied, the vision part has received less attention in recent work. Current state-of-the-art methods for VQA mainly rely on off-the-shelf object detectors delivering a set of object bounding boxes and embeddings, which are then combined with question word embeddings through a reasoning module. In this paper, we propose an in-depth study of the vision-bottleneck in VQA, experimenting with both the quantity and quality of visual objects extracted from images. We also study the impact of two methods to incorporate the information about objects necessary for answering a question, in the reasoning module directly, and earlier in the object selection stage. This work highlights the importance of vision in the context of VQA, and the interest of tailoring vision methods used in VQA to the task at hand.
updated: Mon Feb 14 2022 16:43:32 GMT+0000 (UTC)
published: Mon Feb 14 2022 16:43:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト