arXiv reaDer
視覚的な質問応答のためのシングルモーダルエントロピーベースのアクティブラーニング
Single-Modal Entropy based Active Learning for Visual Question Answering
現実の世界で大規模なラベル付きデータセットを構築することは、特に高レベルのタスク(たとえば、視覚的な質問応答)の場合、費用と時間がかかる可能性があります。さらに、データ量とアーキテクチャの複雑さが増すにつれて、アクティブラーニングはコンピュータビジョン研究の重要な側面になりました。この作業では、視覚的質問応答(VQA)のマルチモーダル設定でのアクティブラーニングについて説明します。マルチモーダル入力、画像、質問に照らして、各入力にアドホックシングルモーダルブランチを使用してその情報を活用することにより、効果的なサンプル取得のための新しい方法を提案します。自己蒸留技術に加えて、相互情報量ベースのサンプル取得戦略シングルモーダルエントロピックメジャー(SMEM)により、サンプル取得者は現在のすべてのモダリティを活用し、最も有益なサンプルを見つけることができます。私たちの斬新なアイデアは、実装が簡単で、費用対効果が高く、他のマルチモーダルタスクに容易に適応できます。既存のアクティブラーニングのベースラインと比較することにより、最先端のパフォーマンスを通じてさまざまなVQAデータセットに関する調査結果を確認します。
Constructing a large-scale labeled dataset in the real world, especially for high-level tasks (eg, Visual Question Answering), can be expensive and time-consuming. In addition, with the ever-growing amounts of data and architecture complexity, Active Learning has become an important aspect of computer vision research. In this work, we address Active Learning in the multi-modal setting of Visual Question Answering (VQA). In light of the multi-modal inputs, image and question, we propose a novel method for effective sample acquisition through the use of ad hoc single-modal branches for each input to leverage its information. Our mutual information based sample acquisition strategy Single-Modal Entropic Measure (SMEM) in addition to our self-distillation technique enables the sample acquisitor to exploit all present modalities and find the most informative samples. Our novel idea is simple to implement, cost-efficient, and readily adaptable to other multi-modal tasks. We confirm our findings on various VQA datasets through state-of-the-art performance by comparing to existing Active Learning baselines.
updated: Thu Oct 21 2021 05:38:45 GMT+0000 (UTC)
published: Thu Oct 21 2021 05:38:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト