arXiv reaDer
うつ病の神経画像研究における機械学習パフォーマンスの体系的な誤推定
Systematic Misestimation of Machine Learning Performance in Neuroimaging Studies of Depression
現在、精神医学の機械学習研究で当惑する現象が見られます。より多くのデータが利用できるため、サンプルが大きいほど良い結果が得られると予想されますが、機械学習の研究が大きいほど、多くの小規模な研究よりもパフォーマンスが一貫して低くなります。ここでは、この分野で最も研究が進んでいる質問の1つ、つまり、神経画像データに基づく大うつ病性障害(MDD)と健康管理(HC)に苦しむ患者の分類に焦点を当ててこの効果を体系的に調査しました。 N = 1,868のMDD患者と最近の国際予測分析コンペティション(PAC)のHCのバランスの取れたサンプルからの構造的磁気共鳴画像法(MRI)データを利用して、最初に完全なデータセットで分類モデルをトレーニングおよびテストしました。 61%。次に、研究者が母集団からさまざまなサイズ(N = 4からN = 150)のサンプルを抽出するプロセスを模倣し、誤推定のリスクが高いことを示しました。具体的には、サンプルサイズが小さい場合(N = 20)、最大95%の精度が観察されます。中程度のサンプルサイズ(N = 100)の場合、最大75%の精度が見つかりました。重要なことに、さらなる調査により、十分に大きなテストセットはパフォーマンスの誤推定から効果的に保護するのに対し、より大きなデータセット自体はそうではないことが示されました。これらの結果は、現在の文献のかなりの部分の妥当性に疑問を投げかけていますが、大部分の場合にすぐに利用できる、より大きなテストセットの比較的低コストの救済策の概要を説明します。
We currently observe a disconcerting phenomenon in machine learning studies in psychiatry: While we would expect larger samples to yield better results due to the availability of more data, larger machine learning studies consistently show much weaker performance than the numerous small-scale studies. Here, we systematically investigated this effect focusing on one of the most heavily studied questions in the field, namely the classification of patients suffering from major depressive disorder (MDD) and healthy control (HC) based on neuroimaging data. Drawing upon structural magnetic resonance imaging (MRI) data from a balanced sample of N = 1,868 MDD patients and HC from our recent international Predictive Analytics Competition (PAC), we first trained and tested a classification model on the full dataset which yielded an accuracy of 61 %. Next, we mimicked the process by which researchers would draw samples of various sizes (N = 4 to N = 150) from the population and showed a strong risk of misestimation. Specifically, for small sample sizes (N = 20), we observe accuracies of up to 95 %. For medium sample sizes (N = 100) accuracies up to 75 % were found. Importantly, further investigation showed that sufficiently large test sets effectively protect against performance misestimation whereas larger datasets per se do not. While these results question the validity of a substantial part of the current literature, we outline the relatively low-cost remedy of larger test sets, which is readily available in most cases.
updated: Mon May 03 2021 15:10:35 GMT+0000 (UTC)
published: Fri Dec 13 2019 20:12:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト