NLVR2 Visual Bias Analysis
  NLVR2(Suhr et al。、2019)は、データ収集プロセスを通じて言語バイアスに強いように設計されており、その結果、各自然言語文が真と偽の両方のラベルで表示されました。このプロセスでは、視覚的なバイアスを制御する同様の尺度は提供されませんでした。この技術レポートでは、NLVR2の視覚的バイアスの可能性を分析しています。ある程度の視覚的バイアスが存在する可能性が高いことを示します。最後に、このような潜在的なバイアスに対してロバストな方法でモデルのパフォーマンスをテストできるテストデータのサブセットを特定します。既存のモデル(Li et al。、2019; Tan and Bansal 2019)のパフォーマンスは、この潜在的なバイアスに対して比較的堅牢であることを示します。このデータのサブセットの評価をNLVR2評価プロトコルに追加し、公式リリースを更新してそれを含めることを提案します。この分析を再現するために使用されるコードの実装を含むノートブックは、で入手できます。
NLVR2 (Suhr et al., 2019) was designed to be robust for language bias through a data collection process that resulted in each natural language sentence appearing with both true and false labels. The process did not provide a similar measure of control for visual bias. This technical report analyzes the potential for visual bias in NLVR2. We show that some amount of visual bias likely exists. Finally, we identify a subset of the test data that allows to test for model performance in a way that is robust to such potential biases. We show that the performance of existing models (Li et al., 2019; Tan and Bansal 2019) is relatively robust to this potential bias. We propose to add the evaluation on this subset of the data to the NLVR2 evaluation protocol, and update the official release to include it. A notebook including an implementation of the code used to replicate this analysis is available at
