arXiv reaDer
マルチサイトニューロイメージングデータセットのバイアスを検出して修正する
Detect and Correct Bias in Multi-Site Neuroimaging Datasets
複雑な機械学習アルゴリズムをトレーニングし、関連研究の統計的検出力を高めたいという願望は、ニューロイメージング研究をさらに大きなデータセットを使用するように駆り立てます。サンプルサイズを増やす最も明白な方法は、独立した研究からのスキャンをプールすることです。ただし、選択、測定、交絡バイアスが忍び寄り、疑似相関が生じる可能性があるため、単純なプーリングはお勧めできません。この作業では、17の研究から得られた脳の35,320の磁気共鳴画像を組み合わせて、ニューロイメージングのバイアスを調べます。最初の実験であるNameThat Datasetでは、スキャンを71.5%の精度でそれぞれのデータセットに正しく割り当てることができることを示すことにより、バイアスの存在に関する経験的証拠を提供します。そのような証拠を踏まえて、観察研究の主な欠点と見なされることが多い交絡バイアスを詳しく調べます。実際には、潜在的な交絡因子をすべて知っているわけでも、それらに関するデータもありません。したがって、交絡因子を未知の潜在変数としてモデル化します。次に、コルモゴロフの複雑さを使用して、交絡モデルと因果モデルのどちらがグラフィカルモデルの最も単純な因数分解を提供するかを決定します。最後に、データセットの調和のための方法を提示し、イメージング機能のバイアスを取り除くそれらの能力を研究します。特に、最近導入されたComBatアルゴリズムの拡張を提案し、遺伝学における集団の階層化の調整に触発されて、画像の特徴全体のグローバルな変動を制御します。私たちの結果は、調和が画像特徴のデータセット固有の情報を減らすことができることを示しています。さらに、交絡バイアスを減らすことができ、因果関係にさえ変えることができます。ただし、調和は、関連する主題固有の情報を簡単に削除できるため、注意が必要です。コードはhttps://github.com/ai-med/Dataset-Biasで入手できます。
The desire to train complex machine learning algorithms and to increase the statistical power in association studies drives neuroimaging research to use ever-larger datasets. The most obvious way to increase sample size is by pooling scans from independent studies. However, simple pooling is often ill-advised as selection, measurement, and confounding biases may creep in and yield spurious correlations. In this work, we combine 35,320 magnetic resonance images of the brain from 17 studies to examine bias in neuroimaging. In the first experiment, Name That Dataset, we provide empirical evidence for the presence of bias by showing that scans can be correctly assigned to their respective dataset with 71.5% accuracy. Given such evidence, we take a closer look at confounding bias, which is often viewed as the main shortcoming in observational studies. In practice, we neither know all potential confounders nor do we have data on them. Hence, we model confounders as unknown, latent variables. Kolmogorov complexity is then used to decide whether the confounded or the causal model provides the simplest factorization of the graphical model. Finally, we present methods for dataset harmonization and study their ability to remove bias in imaging features. In particular, we propose an extension of the recently introduced ComBat algorithm to control for global variation across image features, inspired by adjusting for population stratification in genetics. Our results demonstrate that harmonization can reduce dataset-specific information in image features. Further, confounding bias can be reduced and even turned into a causal relationship. However, harmonziation also requires caution as it can easily remove relevant subject-specific information. Code is available at https://github.com/ai-med/Dataset-Bias.
updated: Tue Oct 27 2020 20:11:25 GMT+0000 (UTC)
published: Wed Feb 12 2020 15:32:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト