Open-Ended Visual Question Answering by Multi-Modal Domain Adaptation
 教師付きドメイン適応を活用して、画像の視覚的質問応答(VQA)の問題を調査します。ここでは、ソースドメインには大量のラベル付きデータがありますが、ターゲットドメインには限定されたラベル付きデータしかありません。 。簡単な解決策は、限定されたラベル付きターゲットデータを使用して事前トレーニングされたソースモデルを微調整することですが、通常、ソースドメインとターゲットドメインのデータ分布が大きく異なるため、うまく機能しません。さらに、VQAでの複数のモダリティ(画像、質問、回答)の可用性は、これらの異なるモダリティ間の移行性をモデル化するためのさらなる課題をもたらします。この論文では、異なるドメインとモダリティにまたがるジョイントフィーチャの埋め込みを学習するために、VQAの新しい教師付きマルチモーダルドメイン適応方法を提案することにより、上記の問題に取り組んでいます。具体的には、すべてのモダリティを一緒に考慮し、個々のモダリティごとに別々に考慮することにより、ソースドメインとターゲットドメインのデータ分布を調整します。現実的なオープンエンドVQAタスクのベンチマークVQA 2.0およびVizWizデータセットに関する広範な実験に基づいて、提案された方法が、VQAのこの困難なドメイン適応設定で既存の最先端のアプローチよりも優れていることを実証します。
We study the problem of visual question answering (VQA) in images by exploiting supervised domain adaptation, where there is a large amount of labeled data in the source domain but only limited labeled data in the target domain with the goal to train a good target model. A straightforward solution is to fine-tune a pre-trained source model by using those limited labeled target data, but it usually cannot work well due to the considerable difference between the data distributions of the source and target domains. Moreover, the availability of multiple modalities (i.e., images, questions and answers) in VQA poses further challenges to model the transferability between those different modalities. In this paper, we tackle the above issues by proposing a novel supervised multi-modal domain adaptation method for VQA to learn joint feature embeddings across different domains and modalities. Specifically, we align the data distributions of the source and target domains by considering all modalities together as well as separately for each individual modality. Based on the extensive experiments on the benchmark VQA 2.0 and VizWiz datasets for the realistic open-ended VQA task, we demonstrate that our proposed method outperforms the existing state-of-the-art approaches in this challenging domain adaptation setting for VQA.
updated: Mon Nov 11 2019 03:26:58 GMT+0000 (UTC)
published: Mon Nov 11 2019 03:26:58 GMT+0000 (UTC)
