arXiv reaDer
DeAR: 加法残差による視覚言語モデルのバイアス緩和
DeAR: Debiasing Vision-Language Models with Additive Residuals
大規模な事前トレーニング済みのビジョン言語モデル (VLM) は、豊富で適応可能な画像とテキスト表現を提供することで、視覚に基づいたさまざまな言語ダウンストリーム タスクの予測モデルを開発する時間を短縮します。ただし、これらのモデルは、トレーニング データ内のさまざまなアイデンティティ グループの分布が偏っているため、社会的バイアスに悩まされています。これらのバイアスは、特定のテキスト概念の表現と異なるアイデンティティ グループの人々の画像との間の歪んだ類似性として現れるため、現実世界のハイステークス アプリケーションでのそのようなモデルの有用性を制限します。この作業では、DeAR (Debiasing with Additive Residuals) を紹介します。これは、付加的な残差画像表現を学習して元の表現をオフセットし、公正な出力表現を保証する新しいバイアス緩和方法です。そうすることで、表現が異なる ID グループを区別する能力が低下します。さらに、現在の公平性テストは、特定のテキストの概念が適用されるべき/適用されない理由を示すことができない限られた顔画像データセットに対して実行されていることがわかります。このギャップを埋め、DeAR をより適切に評価するために、Protected Attribute Tag Association (PATA) データセットを導入します。これは、大規模な事前トレーニング済み VLM の公平性を評価するための新しいコンテキストベースのバイアス ベンチマーク データセットです。さらに、PATA は、さまざまなシナリオで、肯定的な意味合いと否定的な意味合いを持つ多様な人口に視覚的なコンテキストを提供します。複数のデータセットを使用した公平性とゼロ ショット パフォーマンスの維持に関する実験結果は、フレームワークの有効性を示しています。
Large pre-trained vision-language models (VLMs) reduce the time for developing predictive models for various vision-grounded language downstream tasks by providing rich, adaptable image and text representations. However, these models suffer from societal biases owing to the skewed distribution of various identity groups in the training data. These biases manifest as the skewed similarity between the representations for specific text concepts and images of people of different identity groups and, therefore, limit the usefulness of such models in real-world high-stakes applications. In this work, we present DeAR (Debiasing with Additive Residuals), a novel debiasing method that learns additive residual image representations to offset the original representations, ensuring fair output representations. In doing so, it reduces the ability of the representations to distinguish between the different identity groups. Further, we observe that the current fairness tests are performed on limited face image datasets that fail to indicate why a specific text concept should/should not apply to them. To bridge this gap and better evaluate DeAR, we introduce the Protected Attribute Tag Association (PATA) dataset - a new context-based bias benchmarking dataset for evaluating the fairness of large pre-trained VLMs. Additionally, PATA provides visual context for a diverse human population in different scenarios with both positive and negative connotations. Experimental results for fairness and zero-shot performance preservation using multiple datasets demonstrate the efficacy of our framework.
updated: Sat Mar 18 2023 14:57:43 GMT+0000 (UTC)
published: Sat Mar 18 2023 14:57:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト