arXiv reaDer
ディープニューラルネットワークを使用したさまざまなオープンセット医用画像タスクの評価
Evaluation of Various Open-Set Medical Imaging Tasks with Deep Neural Networks
現世代のディープニューラルネットワークは、「閉集合」画像認識で人間に近い結果を達成しています。つまり、評価されるクラスはトレーニングクラスと重複します。最近の多くの方法は、「オープンセット」認識アルゴリズムと呼ばれる未知の重要性に対処しようとし、未知のクラスを拒否し、既知のクラスで高い認識精度を維持しようとします。ただし、ImageNetとは異なる、一般的なドメインでトレーニングされたオープンセットメソッドが、医療ドメインなど、異なるがより具体的なドメインでどのように実行されるかはまだ不明です。これらの一般的なオープンセット手法の有効性を測定するための原則的かつ正式な評価がなければ、人工知能(AI)ベースの医療診断は、効果のない採用と誤った意思決定のリスクの増大を経験するでしょう。このホワイトペーパーでは、最先端のオープンセット手法の中で厳密な評価を行い、「類似ドメイン」から「異なるドメイン」シナリオまでのさまざまなオープンセットシナリオを調査し、さまざまな一般ドメインおよび医療ドメインのデータセットで比較します。 。結果とコアアイデアを要約し、モデルがさまざまな程度のオープン性とオープンクラスのさまざまな分布にどのように反応するかを説明します。結果の定量的および定性的分析により、一般的なドメイントレーニングと医療ドメイントレーニングのオープンセットモデルの主な違いを示します。また、信頼性のキャリブレーションと推論の効率に従って、実際の臨床ワークフローの使用におけるモデルの堅牢性の側面を特定します。
The current generation of deep neural networks has achieved close-to-human results on "closed-set" image recognition; that is, the classes being evaluated overlap with the training classes. Many recent methods attempt to address the importance of the unknown, which are termed "open-set" recognition algorithms, try to reject unknown classes as well as maintain high recognition accuracy on known classes. However, it is still unclear how different general domain-trained open-set methods from ImageNet would perform on a different but more specific domain, such as the medical domain. Without principled and formal evaluations to measure the effectiveness of those general open-set methods, artificial intelligence (AI)-based medical diagnostics would experience ineffective adoption and increased risks of bad decision making. In this paper, we conduct rigorous evaluations amongst state-of-the-art open-set methods, exploring different open-set scenarios from "similar-domain" to "different-domain" scenarios and comparing them on various general and medical domain datasets. We summarise the results and core ideas and explain how the models react to various degrees of openness and different distributions of open classes. We show the main difference between general domain-trained and medical domain-trained open-set models with our quantitative and qualitative analysis of the results. We also identify aspects of model robustness in real clinical workflow usage according to confidence calibration and the inference efficiency.
updated: Thu Oct 21 2021 04:19:41 GMT+0000 (UTC)
published: Thu Oct 21 2021 04:19:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト