深層学習モデルは、医用画像の分野、特に胸部X線を使用した疾患診断の分野で、人間レベルのパフォーマンスに到達またはそれを上回っています。ただし、以前の作業では、そのような分類子は、保護されたグループ全体の予測パフォーマンスのギャップという形でバイアスを示す可能性があることがわかっています。この論文では、予測パフォーマンス(すなわちグループの公平性)の不一致をゼロにするために努力することが、最悪の場合のグループのパフォーマンスを最大化することに焦点を当てるミニマックス公平性よりも、臨床設定における適切な公平性の定義であるかどうかを疑問視します。これら2つの定義全体で分類器の公平性を向上させるために、9つのメソッドのパフォーマンスをベンチマークします。非臨床データに関する以前の研究と一致して、最悪のグループのパフォーマンスを向上させるために努力する方法は、単純なデータバランシングを上回らないことがわかりました。また、グループの公平性を実現する方法は、すべてのグループのパフォーマンスを悪化させることによって実現することもわかりました。これらの結果に照らして、臨床現場での公平性の定義の有用性について議論し、可能な場合はいつでも、基礎となるデータ生成プロセスにおけるバイアス誘発メカニズムの調査を提唱します。
Deep learning models have reached or surpassed human-level performance in the field of medical imaging, especially in disease diagnosis using chest x-rays. However, prior work has found that such classifiers can exhibit biases in the form of gaps in predictive performance across protected groups. In this paper, we question whether striving to achieve zero disparities in predictive performance (i.e. group fairness) is the appropriate fairness definition in the clinical setting, over minimax fairness, which focuses on maximizing the performance of the worst-case group. We benchmark the performance of nine methods in improving classifier fairness across these two definitions. We find, consistent with prior work on non-clinical data, that methods which strive to achieve better worst-group performance do not outperform simple data balancing. We also find that methods which achieve group fairness do so by worsening performance for all groups. In light of these results, we discuss the utility of fairness definitions in the clinical setting, advocating for an investigation of the bias-inducing mechanisms in the underlying data generating process whenever possible.