arXiv reaDer
言語の以前の問題を克服するための視覚的摂動を意識した共学習
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem
最近、いくつかの研究で、既存の視覚的質問応答(VQA)モデルは、画像の内容を無視しながら、質問の種類と回答の間の表面的な統計的相関関係をキャプチャすることを指す、言語の事前の問題に大きく苦しんでいることが指摘されています。繊細なモデルを作成したり、追加の視覚的注釈を導入したりすることで、画像の依存関係を強化するために多くの努力が払われてきました。ただし、これらの方法では、視覚的な手がかりが学習した回答の表現にどのように明示的に影響するかを十分に調査できません。これは、言語依存の緩和に不可欠です。さらに、それらは一般に、学習された回答表現のクラスレベルの識別を強調します。これは、よりきめ細かいインスタンスレベルのパターンを見落とし、さらなる最適化を要求します。本論文では、視覚摂動キャリブレーションの観点から、インスタンスレベルの特性を学習することにより、きめ細かい視覚効果をより適切に調査し、言語の事前問題を軽減できる新しい共学習スキームを提案します。具体的には、異なる摂動範囲を持つ2種類のキュレートされた画像を構築するためのビジュアルコントローラーを考案します。これに基づいて、インスタンス内不変性とインスタンス間識別の共学習が2つの適切に設計された識別器によって実装されます。さらに、バイアスの軽減と表現のキャリブレーションをさらに進めるために、潜在空間に情報ボトルネック変調器を実装します。視覚的摂動を意識したフレームワークを3つのオーソドックスなベースラインに課し、2つの診断VQA-CPベンチマークデータセットでの実験結果は明らかにその有効性を示しています。さらに、バランスの取れたVQAベンチマークでの堅牢性も正当化されます。
Several studies have recently pointed that existing Visual Question Answering (VQA) models heavily suffer from the language prior problem, which refers to capturing superficial statistical correlations between the question type and the answer whereas ignoring the image contents. Numerous efforts have been dedicated to strengthen the image dependency by creating the delicate models or introducing the extra visual annotations. However, these methods cannot sufficiently explore how the visual cues explicitly affect the learned answer representation, which is vital for language reliance alleviation. Moreover, they generally emphasize the class-level discrimination of the learned answer representation, which overlooks the more fine-grained instance-level patterns and demands further optimization. In this paper, we propose a novel collaborative learning scheme from the viewpoint of visual perturbation calibration, which can better investigate the fine-grained visual effects and mitigate the language prior problem by learning the instance-level characteristics. Specifically, we devise a visual controller to construct two sorts of curated images with different perturbation extents, based on which the collaborative learning of intra-instance invariance and inter-instance discrimination is implemented by two well-designed discriminators. Besides, we implement the information bottleneck modulator on latent space for further bias alleviation and representation calibration. We impose our visual perturbation-aware framework to three orthodox baselines and the experimental results on two diagnostic VQA-CP benchmark datasets evidently demonstrate its effectiveness. In addition, we also justify its robustness on the balanced VQA benchmark.
updated: Sun Jul 24 2022 23:50:52 GMT+0000 (UTC)
published: Sun Jul 24 2022 23:50:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト