arXiv reaDer
教師なしの現実的な視覚的質問応答に向けて
Toward Unsupervised Realistic Visual Question Answering
モデルが答えられない質問 (UQ) を拒否し、答えられる質問 (AQ) に答えなければならない現実的な VQA (RVQA) の問題が研究されています。最初に、現在の RVQA 研究の 2 つの欠点を指摘します。(1) データセットには挑戦しにくい UQ が多すぎます。(2) トレーニングには多数の注釈付き UQ が必要です。最初の欠点を解決するために、新しいテスト データセット RGQA を提案します。これは、既存の VQA データセットの AQ と、人間が注釈を付けた約 29K の UQ を組み合わせたものです。これらの UQ は、CLIP ベースと摂動ベースの 2 つのアプローチで生成された、きめの細かい画像質問と粗い画像質問のペアの両方で構成されています。 2 番目の欠点に対処するために、教師なしトレーニング アプローチを導入します。これは、画像と質問をランダムに組み合わせて得られた疑似 UQ を、RoI Mixup 手順と組み合わせて、よりきめ細かい疑似 UQ を生成し、モデル アンサンブルを使用してモデルの信頼性を正則化します。実験では、疑似 UQ を使用すると RVQA ベースラインよりも大幅に優れていることが示されています。 RoI Mixup とモデルのアンサンブルにより、ゲインがさらに増加します。最後に、人間の評価により、人間とモデルの間のパフォーマンスのギャップが明らかになり、RVQA のさらなる研究が必要であることが示されました。
The problem of realistic VQA (RVQA), where a model has to reject unanswerable questions (UQs) and answer answerable ones (AQs), is studied. We first point out 2 drawbacks in current RVQA research, where (1) datasets contain too many unchallenging UQs and (2) a large number of annotated UQs are required for training. To resolve the first drawback, we propose a new testing dataset, RGQA, which combines AQs from an existing VQA dataset with around 29K human-annotated UQs. These UQs consist of both fine-grained and coarse-grained image-question pairs generated with 2 approaches: CLIP-based and Perturbation-based. To address the second drawback, we introduce an unsupervised training approach. This combines pseudo UQs obtained by randomly pairing images and questions, with an RoI Mixup procedure to generate more fine-grained pseudo UQs, and model ensembling to regularize model confidence. Experiments show that using pseudo UQs significantly outperforms RVQA baselines. RoI Mixup and model ensembling further increase the gain. Finally, human evaluation reveals a performance gap between humans and models, showing that more RVQA research is needed.
updated: Thu Mar 09 2023 06:58:29 GMT+0000 (UTC)
published: Thu Mar 09 2023 06:58:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト