arXiv reaDer
医療診断における人間と機械の知覚の違い
Differences between human and machine perception in medical diagnosis
ディープニューラルネットワーク(DNN)は、画像ベースの医療診断で有望ですが、人間の知覚が不変のままであるデータセットシフトによってパフォーマンスが大幅に低下する可能性があるため、完全に信頼することはできません。人間と機械の知覚の違いをよりよく理解できれば、この影響を特徴づけて軽減できる可能性があります。したがって、医療診断における人間と機械の知覚を比較するためのフレームワークを提案します。この2つは、臨床的に意味のある情報の削除に対する感度と、最も疑わしいと見なされる画像の領域に関して比較されます。自然な画像領域からインスピレーションを得て、摂動のロバスト性の観点から両方の比較を組み立てます。私たちのフレームワークの目新しさは、臨床的に意味のある違いがあるサブグループに対して個別の分析が実行されることです。これは、シンプソンのパラドックスを回避し、正しい結論を引き出すために必要であると私たちは主張します。乳がん検診のケーススタディでフレームワークを示し、放射線科医とDNNの有意差を明らかにします。ガウスローパスフィルタリングに対するロバスト性に関して2つを比較し、微小石灰化と軟部組織病変のサブグループ分析を実行します。微小石灰化の場合、DNNは放射線科医とは別の高周波成分のセットを使用します。その一部は放射線科医が最も疑わしいと見なした画像領域の外側にあります。これらの機能は偽物になるリスクがありますが、そうでない場合は、潜在的な新しいバイオマーカーを表す可能性があります。軟部組織病変の場合、放射線科医とDNNの間の相違はさらに深刻であり、DNNは放射線科医によって無視される偽の高周波成分に大きく依存しています。重要なことに、軟部組織病変のこの偏差は、サブグループ分析を通じてのみ観察可能でした。これは、医療分野の知識を比較フレームワークに組み込むことの重要性を強調しています。
Deep neural networks (DNNs) show promise in image-based medical diagnosis, but cannot be fully trusted since their performance can be severely degraded by dataset shifts to which human perception remains invariant. If we can better understand the differences between human and machine perception, we can potentially characterize and mitigate this effect. We therefore propose a framework for comparing human and machine perception in medical diagnosis. The two are compared with respect to their sensitivity to the removal of clinically meaningful information, and to the regions of an image deemed most suspicious. Drawing inspiration from the natural image domain, we frame both comparisons in terms of perturbation robustness. The novelty of our framework is that separate analyses are performed for subgroups with clinically meaningful differences. We argue that this is necessary in order to avert Simpson's paradox and draw correct conclusions. We demonstrate our framework with a case study in breast cancer screening, and reveal significant differences between radiologists and DNNs. We compare the two with respect to their robustness to Gaussian low-pass filtering, performing a subgroup analysis on microcalcifications and soft tissue lesions. For microcalcifications, DNNs use a separate set of high frequency components than radiologists, some of which lie outside the image regions considered most suspicious by radiologists. These features run the risk of being spurious, but if not, could represent potential new biomarkers. For soft tissue lesions, the divergence between radiologists and DNNs is even starker, with DNNs relying heavily on spurious high frequency components ignored by radiologists. Importantly, this deviation in soft tissue lesions was only observable through subgroup analysis, which highlights the importance of incorporating medical domain knowledge into our comparison framework.
updated: Sat Nov 28 2020 00:32:17 GMT+0000 (UTC)
published: Sat Nov 28 2020 00:32:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト