arXiv reaDer
反証・不変データ生成によるロバストな分類モデルに向けて
Towards Robust Classification Model by Counterfactual and Invariant Data Generation
科学、産業、社会全般における機械学習アプリケーションの成功にもかかわらず、多くのアプローチはロバストではないことが知られており、予測を行うために偽の相関に頼ることがよくあります。スプリアスネスは、いくつかの特徴がラベルと相関しているが、因果関係がない場合に発生します。このような機能に依存することで、モデルがそのような相関関係が壊れる目に見えない環境に一般化するのを防ぐことができます。この作業では、画像分類に焦点を当て、スプリアスを減らすための 2 つのデータ生成プロセスを提案します。ラベル (境界ボックスなど) の原因となる (原因となる) 特徴のサブセットの人間による注釈がある場合、この因果セットを変更して、同じラベルを持たない代理画像 (つまり、反事実的画像) を生成します。また、非因果的特徴を変更して、元のラベルとして認識される画像を生成します。これは、これらの特徴に対して不変なモデルを学習するのに役立ちます。いくつかの困難なデータセットでは、偽の相関が壊れたときにデータ生成の精度が最先端の方法を上回り、より適切な説明を提供する因果関係への注目度を高めます。
Despite the success of machine learning applications in science, industry, and society in general, many approaches are known to be non-robust, often relying on spurious correlations to make predictions. Spuriousness occurs when some features correlate with labels but are not causal; relying on such features prevents models from generalizing to unseen environments where such correlations break. In this work, we focus on image classification and propose two data generation processes to reduce spuriousness. Given human annotations of the subset of the features responsible (causal) for the labels (e.g. bounding boxes), we modify this causal set to generate a surrogate image that no longer has the same label (i.e. a counterfactual image). We also alter non-causal features to generate images still recognized as the original labels, which helps to learn a model invariant to these features. In several challenging datasets, our data generations outperform state-of-the-art methods in accuracy when spurious correlations break, and increase the saliency focus on causal features providing better explanations.
updated: Thu Jun 03 2021 06:14:35 GMT+0000 (UTC)
published: Wed Jun 02 2021 12:48:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト