arXiv reaDer
CL-CrossVQA: クロスドメインの視覚的質問応答の継続的学習ベンチマーク
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering
視覚的質問応答 (VQA) は、多分野にわたる研究課題です。正しい答えを導き出すには、画像の視覚的内容の理解、自然言語の質問、画像に含まれる情報に関する常識的な推論、および世界の知識が必要です。最近では、大規模なビジョンと言語の事前トレーニング済みモデル (VLPM) が、その優れたパフォーマンスにより、VQA タスクへの主流のアプローチとなっています。標準的な方法は、ドメイン固有の VQA データセットを使用して、巨大な一般ドメイン データセットで事前トレーニングされた大規模 VLPM を微調整することです。ただし、実際には、アプリケーション ドメインは時間の経過とともに変化する可能性があるため、VLPM は、以前に取得した知識を忘れることなく、継続的に学習して新しいドメインに適応する必要があります。既存の継続的学習 (CL) 研究のほとんどは単峰性タスクに集中していますが、より実用的なアプリケーション シナリオ、つまりクロスドメイン VQA での CL は研究されていません。これに動機付けられて、クロスドメインの視覚的質問応答の厳密な継続的学習ベンチマークである CL-CrossVQA を導入します。これにより、4 つの VLPM、4 つの CL アプローチ、および異なるドメインからの 5 つの VQA データセットで広範な実験を行います。さらに、中間層の忘却現象を調査することにより、モデル アーキテクチャが CL のパフォーマンスにどのように影響するか、CL アプローチが VLPM の忘却をある程度緩和するのに役立つ理由、およびこの挑戦的な連続で VLPM に適した CL アプローチを設計する方法についての洞察を提供します。学習環境。クロスドメイン VQA の CL に関する今後の作業を容易にするために、データセットとコードをリリースします。
Visual Question Answering (VQA) is a multi-discipline research task. To produce the right answer, it requires an understanding of the visual content of images, the natural language questions, as well as commonsense reasoning over the information contained in the image and world knowledge. Recently, large-scale Vision-and-Language Pre-trained Models (VLPMs) have been the mainstream approach to VQA tasks due to their superior performance. The standard practice is to fine-tune large-scale VLPMs pre-trained on huge general-domain datasets using the domain-specific VQA datasets. However, in reality, the application domain can change over time, necessitating VLPMs to continually learn and adapt to new domains without forgetting previously acquired knowledge. Most existing continual learning (CL) research concentrates on unimodal tasks, whereas a more practical application scenario, i.e, CL on cross-domain VQA, has not been studied. Motivated by this, we introduce CL-CrossVQA, a rigorous Continual Learning benchmark for Cross-domain Visual Question Answering, through which we conduct extensive experiments on 4 VLPMs, 4 CL approaches, and 5 VQA datasets from different domains. In addition, by probing the forgetting phenomenon of the intermediate layers, we provide insights into how model architecture affects CL performance, why CL approaches can help mitigate forgetting in VLPMs to some extent, and how to design CL approaches suitable for VLPMs in this challenging continual learning environment. To facilitate future work on CL for cross-domain VQA, we will release our datasets and code.
updated: Sat Nov 19 2022 02:43:30 GMT+0000 (UTC)
published: Sat Nov 19 2022 02:43:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト