arXiv reaDer
LPF: 偏りのない視覚的質問応答のための言語優先フィードバック目的関数
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering
ほとんどの既存の視覚的質問応答 (VQA) システムは言語バイアスに過度に依存する傾向があるため、視覚的手がかりから推論することができません。この問題に対処するために、新しい言語優先フィードバック (LPF) の目的関数を提案し、合計 VQA 損失における各回答の損失値の比率を再調整します。 LPF は最初に、質問のみの分岐を使用して言語バイアスを決定する変調係数を計算します。次に、LPF は、トレーニング プロセスの各トレーニング サンプルに自己適応型の重みを割り当てます。この再重み付けメカニズムにより、LPF は、合計 VQA 損失をよりバランスの取れた形式に再形成できるようにします。これにより、予測に特定の視覚情報を必要とするサンプルがトレーニング中に効率的に使用されます。私たちの方法は実装が簡単で、モデルに依存せず、エンド ツー エンドのトレーニングが可能です。大規模な実験を行った結果、LPF (1) はさまざまな VQA モデルよりも大幅に改善され、(2) バイアスに敏感な VQA-CP v2 ベンチマークで競争力のあるパフォーマンスを達成することが示されています。
Most existing Visual Question Answering (VQA) systems tend to overly rely on language bias and hence fail to reason from the visual clue. To address this issue, we propose a novel Language-Prior Feedback (LPF) objective function, to re-balance the proportion of each answer's loss value in the total VQA loss. The LPF firstly calculates a modulating factor to determine the language bias using a question-only branch. Then, the LPF assigns a self-adaptive weight to each training sample in the training process. With this reweighting mechanism, the LPF ensures that the total VQA loss can be reshaped to a more balanced form. By this means, the samples that require certain visual information to predict will be efficiently used during training. Our method is simple to implement, model-agnostic, and end-to-end trainable. We conduct extensive experiments and the results show that the LPF (1) brings a significant improvement over various VQA models, (2) achieves competitive performance on the bias-sensitive VQA-CP v2 benchmark.
updated: Sat May 29 2021 13:48:11 GMT+0000 (UTC)
published: Sat May 29 2021 13:48:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト