arXiv reaDer
一貫した視覚的質問応答のための語彙摂動からの学習
Learning from Lexical Perturbations for Consistent Visual Question Answering
既存の視覚的質問応答(VQA)モデルは、多くの場合、壊れやすく、入力の変動に敏感です。この論文では、モジュラーネットワークに基づいてこの問題に対処するための新しいアプローチを提案します。これは、言語の摂動に関連する2つの質問を作成し、トレーニング中に一貫するようにそれらの間の視覚的推論プロセスを正規化します。私たちのフレームワークが一貫性と一般化能力を著しく改善することを示し、VQAモデルの有用で現在十分に活用されていないトレーニングおよび正則化ツールとしての制御された言語摂動の価値を示しています。また、VQA質問の制御可能な言語バリエーションを作成するための新しい低コストのベンチマークおよび拡張パイプラインであるVQA摂動ペアリング(VQA P2)も紹介します。私たちのベンチマークは、大規模な言語リソースから独自に引き出し、生成的アプローチと比較してデータ品質を維持しながら、人間による注釈の労力を回避します。 VQA P2を使用して既存のVQAモデルのベンチマークを行い、各タイプの言語バリエーションの堅牢性分析を提供します。
Existing Visual Question Answering (VQA) models are often fragile and sensitive to input variations. In this paper, we propose a novel approach to address this issue based on modular networks, which creates two questions related by linguistic perturbations and regularizes the visual reasoning process between them to be consistent during training. We show that our framework markedly improves consistency and generalization ability, demonstrating the value of controlled linguistic perturbations as a useful and currently underutilized training and regularization tool for VQA models. We also present VQA Perturbed Pairings (VQA P2), a new, low-cost benchmark and augmentation pipeline to create controllable linguistic variations of VQA questions. Our benchmark uniquely draws from large-scale linguistic resources, avoiding human annotation effort while maintaining data quality compared to generative approaches. We benchmark existing VQA models using VQA P2 and provide robustness analysis on each type of linguistic variation.
updated: Thu Nov 26 2020 17:38:03 GMT+0000 (UTC)
published: Thu Nov 26 2020 17:38:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト