評価者間の変動性の問題は、医療画像の手動ラベル付けのコンテキストでしばしば議論されます。ディープニューラルネットワーク(DNN)などのデータ駆動型アプローチの出現により、この評価者の意見の不一致の問題はフロントステージに持ち込まれました。このホワイトペーパーでは、ランダムなオブザーバー間変動とは対照的な評価者間バイアスの問題を強調し、DNNトレーニングへの影響を示し、同じ入力画像に対して異なるセグメンテーション結果を導きます。実際、ある評価者の注釈でトレーニングされ、別の評価者でテストされたDNNの出力間では、重複スコアが低くなっています。さらに、DNNのテストデータのセグメンテーション予測を考慮して、トレーニング例の評価者間バイアスが増幅され、より一貫性があることを示します。実際の評価者の注釈ではなく自動セグメンテーション予測がテストされた場合、手動注釈に基づいて評価者を区別するように訓練された分類子DNNのパフォーマンスが向上することを示すことで、調査結果をサポートします。この研究では、2つの異なるデータセットを使用しました。ISRI2015多発性硬化症(MS)チャレンジデータセット。それぞれMRIスキャンを含み、専門知識のレベルが異なる2つの評価者によって提供された注釈を使用します。手動および半手動のセグメンテーションを使用した脳内出血(ICH)CTスキャン。得られた結果は、トレーニング中に評価者間バイアスによって引き起こされるDNNバイアスの気になる臨床的意味を強調することを可能にします。具体的には、経験の少ない評価者によって提供された入力でトレーニングされたDNNのセグメンテーション予測から計算された場合、MS病変の負荷の一貫した過小評価を提示します。同様に、異なるソースからのアノテーションでトレーニングされた同一のDNNの出力に基づいて計算されたICHボリュームの違いは、トレーニングに使用される手動アノテーションとセミマニュアルアノテーションのボリュームの違いよりも一貫性があり、大きくなります。
The problem of inter-rater variability is often discussed in the context of manual labeling of medical images. The emergence of data-driven approaches such as Deep Neural Networks (DNNs) brought this issue of raters' disagreement to the front-stage. In this paper, we highlight the issue of inter-rater bias as opposed to random inter-observer variability and demonstrate its influence on DNN training, leading to different segmentation results for the same input images. In fact, lower overlap scores are obtained between the outputs of a DNN trained on annotations of one rater and tested on another. Moreover, we demonstrate that inter-rater bias in the training examples is amplified and becomes more consistent, considering the segmentation predictions of the DNNs' test data. We support our findings by showing that a classifier-DNN trained to distinguish between raters based on their manual annotations performs better when the automatic segmentation predictions rather than the actual raters' annotations were tested. For this study, we used two different datasets: the ISBI 2015 Multiple Sclerosis (MS) challenge dataset, including MRI scans each with annotations provided by two raters with different levels of expertise; and Intracerebral Hemorrhage (ICH) CT scans with manual and semi-manual segmentations. The results obtained allow us to underline a worrisome clinical implication of a DNN bias induced by an inter-rater bias during training. Specifically, we present a consistent underestimate of MS-lesion loads when calculated from segmentation predictions of a DNN trained on input provided by the less experienced rater. In the same manner, the differences in ICH volumes calculated based on outputs of identical DNNs, each trained on annotations from a different source are more consistent and larger than the differences in volumes between the manual and semi-manual annotations used for training.