Improve Model Generalization and Robustness to Dataset Bias with Bias-regularized Learning and Domain-guided Augmentation
 ディープラーニングは、生物医学のビッグデータの出現に成功しています。ただし、異なる施設で取得された医療データセットには、運用ポリシー、マシンプロトコル、治療選好などのさまざまな交絡要因に起因する固有のバイアスがあります。その結果、1つのデータセットでトレーニングされたモデルは、ボリュームに関係なく、他のデータセットに自信を持って利用できません。この研究では、3つの大規模な胸部X線データセットを使用して、データセットバイアスに対するモデルの堅牢性を調査しました。最初に、バニラトレーニングベースラインを使用してデータセットバイアスを評価しました。次に、(a)新しいバイアス調整損失関数を設計することにより、新しいマルチソースドメイン一般化モデルを提案しました。 (b)ドメイン拡張のために新しいデータを合成します。モデルは、再トレーニングや微調整を行うことなく、精度やさまざまなバイアス測定の観点から、見えない領域のデータに対するベースラインやその他のアプローチよりも大幅に優れていることを示しました。私たちの方法は、一般的に他の生物医学データに適用可能であり、ビッグデータ分析とアプリケーションのバイアスに強いモデルをトレーニングするための新しいアルゴリズムを提供します。デモトレーニングコードは公開されています。
Deep Learning has thrived on the emergence of biomedical big data. However, medical datasets acquired at different institutions have inherent bias caused by various confounding factors such as operation policies, machine protocols, treatment preference and etc. As the result, models trained on one dataset, regardless of volume, cannot be confidently utilized for the others. In this study, we investigated model robustness to dataset bias using three large-scale Chest X-ray datasets: first, we assessed the dataset bias using vanilla training baseline; second, we proposed a novel multi-source domain generalization model by (a) designing a new bias-regularized loss function; and (b) synthesizing new data for domain augmentation. We showed that our model significantly outperformed the baseline and other approaches on data from unseen domain in terms of accuracy and various bias measures, without retraining or finetuning. Our method is generally applicable to other biomedical data, providing new algorithms for training models robust to bias for big data analysis and applications. Demo training code is publicly available.
updated: Wed Nov 13 2019 20:04:08 GMT+0000 (UTC)
published: Sat Oct 12 2019 18:15:20 GMT+0000 (UTC)
