arXiv reaDer
WebQA:マルチホップおよびマルチモーダルQA
WebQA: Multihop and Multimodal QA
視覚的質問応答(VQA)をWeb検索のオープンドメインおよびマルチホップの性質にスケーリングするには、視覚的表現学習、知識集約、および言語生成の根本的な進歩が必要です。この作業では、WebQAを紹介します。これは、新しいオブジェクトの言語に基づいた視覚的表現と推論能力がなく、人間にとっては些細なことである大規模な最先端モデルでは困難であることが証明された、挑戦的な新しいベンチマークです。 WebQAは、人間がWebを使用する方法を反映しています。1)質問をする、2)集計するソースを選択する、3)流暢な言語応答を生成する。これは、IoTデバイスとデジタルアシスタントに期待すべき動作です。既存の研究では、モデルが画像またはテキストの知識について推論できると想定することを好みます。 WebQAには、言語理解を犠牲にして視覚的パフォーマンスの向上がもたらされないようにするための、二次的なテキストのみのQAタスクが含まれています。コミュニティに対する私たちの課題は、ソースのモダリティに関係なく質問に答える統一されたマルチモーダル推論モデルを作成し、言語知識だけでなく、より豊かなビジュアルオンライン世界をクエリするデジタルアシスタントに近づけることです。
Scaling Visual Question Answering (VQA) to the open-domain and multi-hop nature of web searches, requires fundamental advances in visual representation learning, knowledge aggregation, and language generation. In this work, we introduce WebQA, a challenging new benchmark that proves difficult for large-scale state-of-the-art models which lack language groundable visual representations for novel objects and the ability to reason, yet trivial for humans. WebQA mirrors the way humans use the web: 1) Ask a question, 2) Choose sources to aggregate, and 3) Produce a fluent language response. This is the behavior we should be expecting from IoT devices and digital assistants. Existing work prefers to assume that a model can either reason about knowledge in images or in text. WebQA includes a secondary text-only QA task to ensure improved visual performance does not come at the cost of language understanding. Our challenge for the community is to create unified multimodal reasoning models that answer questions regardless of the source modality, moving us closer to digital assistants that not only query language knowledge, but also the richer visual online world.
updated: Mon Mar 28 2022 02:42:56 GMT+0000 (UTC)
published: Wed Sep 01 2021 19:43:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト