arXiv reaDer
不均衡なデータのための非常に効率的な表現と能動学習フレームワークおよびそのCOVID-19X線分類への応用
Highly Efficient Representation and Active Learning Framework for Imbalanced Data and its Application to COVID-19 X-Ray Classification
胸部X線を分類するためのデータ効率の高い分類と能動学習フレームワークを提案します。これは、(1)畳み込みニューラルネットワークの教師なし表現学習と(2)ガウス過程法に基づいています。教師なし表現学習は、クラスラベルを必要としない自己監視を採用しており、学習された機能はラベル効率の高い分類を実現することが証明されています。 GPは、カーネルベースのベイズアプローチであり、データ効率の高い予測につながり、各決定の不確実性を推定するという追加の利点もあります。私たちの新しいフレームワークは、これら2つの要素を順番に組み合わせて、高度なデータとラベル効率の高い分類を実現します。さらに、両方の要素は、(1)ラベルなしで学習された機能、および(2)GPのベイズ的性質のおかげで、一般的で困難なクラスの不均衡の問題に対する感度が低くなります。 GPが提供する不確実性の推定値は、不確実性に基づいてサンプルをランク付けし、より高い不確実性を示すサンプルに選択的にラベルを付けることにより、能動学習を可能にします。この新しい組み合わせを、データ不足で深刻な不均衡なCOVID-19胸部X線分類の症例に適用します。利用可能なすべてのラベルをトレーニングして精度を達成するには、ラベル付きデータの約10%しか必要ないことを示しています。完全に監視された分類シナリオでのCOVID-19データへの適用は、一般的なResNetバックボーンを備えたモデルが、高度に調整されたアーキテクチャを備えた最先端のモデルよりも優れていることを示しています(COVID-19の場合は4%)。私たちのモデルアーキテクチャと提案されたフレームワークは、より幅広いクラスのデータセットに適用するための一般的で簡単なものであり、期待される成功を収めています。
We propose a highly data-efficient classification and active learning framework for classifying chest X-rays. It is based on (1) unsupervised representation learning of a Convolutional Neural Network and (2) the Gaussian Process method. The unsupervised representation learning employs self-supervision that does not require class labels, and the learned features are proven to achieve label-efficient classification. GP is a kernel-based Bayesian approach that also leads to data-efficient predictions with the added benefit of estimating each decision's uncertainty. Our novel framework combines these two elements in sequence to achieve highly data and label efficient classifications. Moreover, both elements are less sensitive to the prevalent and challenging class imbalance issue, thanks to the (1) feature learned without labels and (2) the Bayesian nature of GP. The GP-provided uncertainty estimates enable active learning by ranking samples based on the uncertainty and selectively labeling samples showing higher uncertainty. We apply this novel combination to the data-deficient and severely imbalanced case of COVID-19 chest X-ray classification. We demonstrate that only ∼10% of the labeled data is needed to reach the accuracy from training all available labels. Its application to the COVID-19 data in a fully supervised classification scenario shows that our model, with a generic ResNet backbone, outperforms (COVID-19 case by 4%) the state-of-the-art model with a highly tuned architecture. Our model architecture and proposed framework are general and straightforward to apply to a broader class of datasets, with expected success.
updated: Thu May 06 2021 16:33:13 GMT+0000 (UTC)
published: Thu Feb 25 2021 02:48:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト