arXiv reaDer
反事実的VQA:言語バイアスの因果関係の考察
Counterfactual VQA: A Cause-Effect Look at Language Bias
最近のVQAモデルは、ショートカットとして言語バイアスに依存する傾向があるため、ビジョンと言語の両方からマルチモーダル知識を十分に学習できない可能性があります。このホワイトペーパーでは、VQAの言語バイアスをキャプチャして軽減する方法を調査します。因果効果に動機付けられて、新しい反事実推論フレームワークを提案しました。これにより、回答に対する質問の直接的な因果効果として言語バイアスをキャプチャし、総因果効果から直接的な言語効果を差し引くことによって言語バイアスを減らすことができます。実験は、提案された反事実推論フレームワークが1)さまざまなVQAバックボーンと融合戦略に一般的であり、2)言語バイアスに敏感なVQA-CPデータセットで競争力のあるパフォーマンスを達成し、バランスの取れたVQAv2データセットで堅牢に実行することを示しています。
Recent VQA models may tend to rely on language bias as a shortcut and thus fail to sufficiently learn the multi-modal knowledge from both vision and language. In this paper, we investigate how to capture and mitigate language bias in VQA. Motivated by causal effects, we proposed a novel counterfactual inference framework, which enables us to capture the language bias as the direct causal effect of questions on answers and reduce the language bias by subtracting the direct language effect from the total causal effect. Experiments demonstrate that our proposed counterfactual inference framework 1) is general to various VQA backbones and fusion strategies, 2) achieves competitive performance on the language-bias sensitive VQA-CP dataset while performs robustly on the balanced VQA v2 dataset.
updated: Mon Dec 28 2020 10:35:08 GMT+0000 (UTC)
published: Mon Jun 08 2020 01:49:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト