Dataset Growth in Medical Image Analysis Research
医用画像分析の研究では、通常、アルゴリズムのトレーニング、テスト、検証のために医用画像データセットが必要です。ディープラーニング革命と、最近の医療画像分析研究における機械学習の優位性により、ニーズが強調されています。それにもかかわらず、倫理的および法的制約、商業的対立、忙しい医療専門家への依存により、医療画像分析研究者は「データ不足」と言われています。データセットサイズの十分性に関する客観的な基準がないため、研究コミュニティは、ピアレビュープロセスによってアドホック標準を暗黙的に設定します。ピアレビューでは、研究者が仕事を信頼できる出版会場に受け入れるための1つの条件として、増え続けるデータセットの使用を報告する必要があると仮定しています。この仮説を検証するために、2011年から2018年までの著名なMICCAI(Medical Image Computing and Computer-Assisted Intervention)会議の議事録をスキャンしました。合計2136件の記事から、MRI(Magnetic Resonance Imaging)の人間のデータセットを含む907件の論文に焦点を当てました)、CT(コンピューター断層撮影)およびfMRI(機能的MRI)画像。各モダリティについて、2011-2018年のそれぞれについて、その年のMICCAIの記事で使用された被験者の平均、幾何平均、および中央値の数を計算しました。結果は、データセットの成長仮説を裏付けています。具体的には、MICCAI記事の年間データセットサイズの中央値は、イメージングモダリティに応じて、2011年から2018年にかけて約3〜10倍に増加しました。統計分析は、データセットの成長仮説をさらにサポートし、MRIで約21%、CTで24%、fMRIで31%の幾何平均データセットサイズの指数関数的成長を明らかにします。ムーアの法則とわずかに類似して、結果は、データセットのサイズに関する医療画像分析コミュニティの期待の傾向に関するガイダンスを提供できます。
Medical image analysis studies usually require medical image datasets for training, testing and validation of algorithms. The need is underscored by the deep learning revolution and the dominance of machine learning in recent medical image analysis research. Nevertheless, due to ethical and legal constraints, commercial conflicts and the dependence on busy medical professionals, medical image analysis researchers have been described as "data starved". Due to the lack of objective criteria for sufficiency of dataset size, the research community implicitly sets ad-hoc standards by means of the peer review process. We hypothesize that peer review requires researchers to report the use of ever-increasing datasets as one condition for acceptance of their work to reputable publication venues. To test this hypothesis, we scanned the proceedings of the eminent MICCAI (Medical Image Computing and Computer-Assisted Intervention) conferences from 2011 to 2018. From a total of 2136 articles, we focused on 907 papers involving human datasets of MRI (Magnetic Resonance Imaging), CT (Computed Tomography) and fMRI (functional MRI) images. For each modality, for each of the years 2011-2018 we calculated the average, geometric mean and median number of human subjects used in that year's MICCAI articles. The results corroborate the dataset growth hypothesis. Specifically, the annual median dataset size in MICCAI articles has grown roughly 3-10 times from 2011 to 2018, depending on the imaging modality. Statistical analysis further supports the dataset growth hypothesis and reveals exponential growth of the geometric mean dataset size, with annual growth of about 21% for MRI, 24% for CT and 31% for fMRI. In slight analogy to Moore's law, the results can provide guidance about trends in the expectations of the medical image analysis community regarding dataset size.
