arXiv reaDer
生成モデルは、分布シフト下での医療分類子の公平性を向上させます
Generative models improve fairness of medical classifiers under distribution shifts
機械学習における遍在する課題は、ドメインの一般化の問題です。これは、モデル開発に使用されるデータセットで過小評価されているグループまたはラベルに対する偏見を悪化させる可能性があります。モデルのバイアスは、特にヘルスケアなどの安全性が重要なアプリケーションで、意図しない害につながる可能性があります。さらに、この課題は、コストが高いか、すぐに利用できるドメインの専門知識がないために、ラベル付きデータを取得するのが難しいことによって悪化しています。私たちの研究では、生成モデルを使用してラベル効率の高い方法でデータから現実的な拡張を自動的に学習できることを示しています。特に、ラベル付けされていない大量のデータを活用して、画像モダリティのさまざまな条件とサブグループの基になるデータ分布をキャプチャします。適切なラベルで生成モデルを調整することにより、特定の要件に従って合成例の配布を操作できます。これらの学習された拡張は、モデルをより堅牢にし、分布内外で統計的に公平にすることにより、ヒューリスティックな拡張を超えることができることを示しています。私たちのアプローチの一般性を評価するために、さまざまな難易度の 3 つの異なる医用画像処理のコンテキストを研究します。複雑なシフトとイメージング条件が特徴です。実際のトレーニング サンプルを合成サンプルで補完することで、3 つの医療タスクすべてでモデルの堅牢性が向上し、過小評価されているグループ内の診断の精度が向上することで公平性が向上します。このアプローチは、モダリティ全体で OOD の大幅な改善につながります。組織病理学で 7.7% の予測精度の向上、胸部放射線学で 5.2% の改善、公平性のギャップが 44.6% 減少、皮膚科のハイリスク感度が 63.5% 改善され、公平性のギャップが 7.5 倍減少.
A ubiquitous challenge in machine learning is the problem of domain generalisation. This can exacerbate bias against groups or labels that are underrepresented in the datasets used for model development. Model bias can lead to unintended harms, especially in safety-critical applications like healthcare. Furthermore, the challenge is compounded by the difficulty of obtaining labelled data due to high cost or lack of readily available domain expertise. In our work, we show that learning realistic augmentations automatically from data is possible in a label-efficient manner using generative models. In particular, we leverage the higher abundance of unlabelled data to capture the underlying data distribution of different conditions and subgroups for an imaging modality. By conditioning generative models on appropriate labels, we can steer the distribution of synthetic examples according to specific requirements. We demonstrate that these learned augmentations can surpass heuristic ones by making models more robust and statistically fair in- and out-of-distribution. To evaluate the generality of our approach, we study 3 distinct medical imaging contexts of varying difficulty: (i) histopathology images from a publicly available generalisation benchmark, (ii) chest X-rays from publicly available clinical datasets, and (iii) dermatology images characterised by complex shifts and imaging conditions. Complementing real training samples with synthetic ones improves the robustness of models in all three medical tasks and increases fairness by improving the accuracy of diagnosis within underrepresented groups. This approach leads to stark improvements OOD across modalities: 7.7% prediction accuracy improvement in histopathology, 5.2% in chest radiology with 44.6% lower fairness gap and a striking 63.5% improvement in high-risk sensitivity for dermatology with a 7.5x reduction in fairness gap.
updated: Tue Apr 18 2023 18:15:38 GMT+0000 (UTC)
published: Tue Apr 18 2023 18:15:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト