モデルのバイアスは、機械学習システムを導入する際に重大な問題を引き起こしますが、説明可能な方法でバイアスを診断するのは困難な場合があります。これに対処するために、言語解釈を使用して、画像分類子やテキストから画像への生成モデルなどの視覚モデルのバイアスを特定し、軽減するバイアスからテキストへの (B2T) フレームワークを導入します。視覚的なバイアスの言語記述は、新しいバイアスの発見と効果的なモデルのバイアス解消を可能にする説明可能な形式を提供します。これを達成するために、私たちは、誤って予測された画像や生成された画像のキャプションに含まれる一般的なキーワードを分析します。ここでは、バイアスキーワードとそれらの画像の類似性を比較することにより、キャプションのバイアスを回避するための新しいスコア関数を提案します。さらに、B2T フレームワークのバイアス キーワードを使用して、ゼロショット分類器とテキストから画像への拡散モデルをバイアス解除する戦略を紹介します。さまざまな画像分類および生成タスクにおけるフレームワークの有効性を実証します。分類器については、Kaggle Face のキーワード「(スポーツ) プレーヤー」と「女性」の間に新たな偽の相関関係が発見され、バイアス除去を通じて Waterbirds の最悪のグループ精度がベースラインと比較して 11% 改善されました。生成モデルの場合、不公平 (性別に偏ったものなど) で安全でない (「裸」など) の画像生成を検出し、効果的に防止します。
Biases in models pose a critical issue when deploying machine learning systems, but diagnosing them in an explainable manner can be challenging. To address this, we introduce the bias-to-text (B2T) framework, which uses language interpretation to identify and mitigate biases in vision models, such as image classifiers and text-to-image generative models. Our language descriptions of visual biases provide explainable forms that enable the discovery of novel biases and effective model debiasing. To achieve this, we analyze common keywords in the captions of mispredicted or generated images. Here, we propose novel score functions to avoid biases in captions by comparing the similarities between bias keywords and those images. Additionally, we present strategies to debias zero-shot classifiers and text-to-image diffusion models using the bias keywords from the B2T framework. We demonstrate the effectiveness of our framework on various image classification and generation tasks. For classifiers, we discover a new spurious correlation between the keywords "(sports) player" and "female" in Kaggle Face and improve the worst-group accuracy on Waterbirds by 11% through debiasing, compared to the baseline. For generative models, we detect and effectively prevent unfair (e.g., gender-biased) and unsafe (e.g., "naked") image generation.