arXiv reaDer
コスタリカのローカルクリニックにおけるマンモグラム分類のための半教師あり学習の実際の使用例
A Real Use Case of Semi-Supervised Learning for Mammogram Classification in a Local Clinic of Costa Rica
マンモグラム画像を分類するための深層学習ベースのコンピュータ支援診断システムの実装は、患者の診断の精度、信頼性、およびコストを改善するのに役立ちます。ただし、深層学習モデルのトレーニングにはかなりの量のラベル付き画像が必要であり、臨床医からの時間と労力が必要になるため、取得に費用がかかる可能性があります。さまざまな病院や診療所からのデータを使用して、公開されている多くのデータセットが作成されています。ただし、これらのデータセットでトレーニングされたモデルを使用して、別の病院または診療所からサンプリングされた画像を後で処理すると、パフォーマンスが低下する可能性があります。これは、さまざまな患者集団と画像取得プロトコルを含むデータセットの分布の不一致によるものです。ラベル付けされたデータの不足は、これらのソースデータセットを使用してトレーニングされたモデルを使用した転移学習の適用に課題をもたらす可能性もあります。この作業では、コスタリカンの民間クリニックからサンプリングされた新しいターゲットデータセットが使用され、ラベルがほとんどなく、データのバランスが非常に悪い現実世界のシナリオが評価されます。新規のターゲットデータセットでモデルをトレーニングおよびテストするための、ソースデータとしての2つの一般的で公開されているデータセット(INbreastおよびCBIS-DDSM)の使用が評価されます。ターゲットデータセットからのラベルなしデータの使用を活用するための、MixMatchとして知られる半教師あり深層学習アプローチの使用が提案され、評価されます。テストでは、モデルのパフォーマンスが広範囲に測定され、さまざまなメトリックを使用して、大量のデータの不均衡条件下での分類器のパフォーマンスが評価されます。微調整と組み合わせた半教師あり深層学習の使用は、希少なラベル付き観測を使用するときに意味のある利点を提供できることが示されています。コミュニティの利益のために、新しいデータセットを利用できるようにします。
The implementation of deep learning based computer aided diagnosis systems for the classification of mammogram images can help in improving the accuracy, reliability, and cost of diagnosing patients. However, training a deep learning model requires a considerable amount of labeled images, which can be expensive to obtain as time and effort from clinical practitioners is required. A number of publicly available datasets have been built with data from different hospitals and clinics. However, using models trained on these datasets for later work on images sampled from a different hospital or clinic might result in lower performance. This is due to the distribution mismatch of the datasets, which include different patient populations and image acquisition protocols. The scarcity of labeled data can also bring a challenge towards the application of transfer learning with models trained using these source datasets. In this work, a real world scenario is evaluated where a novel target dataset sampled from a private Costa Rican clinic is used, with few labels and heavily imbalanced data. The use of two popular and publicly available datasets (INbreast and CBIS-DDSM) as source data, to train and test the models on the novel target dataset, is evaluated. The use of the semi-supervised deep learning approach known as MixMatch, to leverage the usage of unlabeled data from the target dataset, is proposed and evaluated. In the tests, the performance of models is extensively measured, using different metrics to assess the performance of a classifier under heavy data imbalance conditions. It is shown that the use of semi-supervised deep learning combined with fine-tuning can provide a meaningful advantage when using scarce labeled observations. We make available the novel dataset for the benefit of the community.
updated: Sat Jul 24 2021 22:26:50 GMT+0000 (UTC)
published: Sat Jul 24 2021 22:26:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト