機械学習モデルは、トレーニング データセットからバイアスを継承することが示されています。これは、インターネットから収集した未管理のデータセットでトレーニングされた視覚言語基盤モデルの場合、特に問題となる可能性があります。バイアスは増幅され、ゼロショット分類器やテキストから画像への生成モデルなどの下流アプリケーションに伝播される可能性があります。この研究では、テキスト埋め込み内の偏った方向を投影することにより、視覚言語基盤モデルのバイアスを軽減するための一般的なアプローチを提案します。特に、校正された射影行列を使用してテキスト埋め込みのみをバイアス解除するだけで、堅牢な分類器と公平な生成モデルを生成するには十分であることを示します。提案された閉じた形式のソリューションにより、大規模パイプラインへの簡単な統合が可能になり、実証結果は、追加のデータやトレーニングを必要とせずに、私たちのアプローチが識別的および生成的視覚言語モデルの両方で社会的バイアスと偽相関を効果的に低減することを示しています。
Machine learning models have been shown to inherit biases from their training datasets. This can be particularly problematic for vision-language foundation models trained on uncurated datasets scraped from the internet. The biases can be amplified and propagated to downstream applications like zero-shot classifiers and text-to-image generative models. In this study, we propose a general approach for debiasing vision-language foundation models by projecting out biased directions in the text embedding. In particular, we show that debiasing only the text embedding with a calibrated projection matrix suffices to yield robust classifiers and fair generative models. The proposed closed-form solution enables easy integration into large-scale pipelines, and empirical results demonstrate that our approach effectively reduces social bias and spurious correlation in both discriminative and generative vision-language models without the need for additional data or training.