arXiv reaDer
MVCNet:3DCT病変の教師なし表現学習のためのマルチビュー対照ネットワーク
MVCNet: Multiview Contrastive Network for Unsupervised Representation Learning for 3D CT Lesions
目的と影響に関する声明。ディープラーニングのルネッサンスにより、コンピューター断層撮影(CT)の自動診断システムは多くの成功したアプリケーションを達成しました。ただし、それらは主に注意深い専門家の注釈に起因し、実際にはほとんどありません。これにより、教師なし表現学習への関心が高まります。序章。最近の研究では、自己教師あり学習が表現を学習するための効果的なアプローチであることが示されていますが、それらのほとんどは、変換と口実タスクの経験的設計に依存しています。メソッド。これらの方法に関連する主観性を回避するために、変換なしの方法で機能する新しい教師なし3次元(3D)表現学習方法であるMVCNetを提案します。複数の2次元(2D)ビューを収集するために、さまざまな方向から各3D病変を表示します。次に、同じ3D病変の2Dビューが集約され、異なる病変の2Dビューが分離されるように、コントラスト損失を最小化することによって埋め込み関数が学習されます。埋め込み層で単純な分類ヘッドをトレーニングすることにより、表現を評価します。結果。実験結果は、MVCNetが教師なし表現学習のためにLIDC-IDRI(89.55%)、LNDb(77.69%)、およびTianChi(79.96%)データセットで最先端の精度を達成することを示しています。ラベル付けされたデータの10%で微調整すると、精度は教師あり学習モデルに匹敵します(3つのデータセットでそれぞれ89.46%対85.03%、73.85%対73.44%、83.56%対83.34%)。結論。結果は、注釈が制限された表現の学習におけるMVCNetの優位性を示しています。
Objective and Impact Statement. With the renaissance of deep learning, automatic diagnostic systems for computed tomography (CT) have achieved many successful applications. However, they are mostly attributed to careful expert annotations, which are often scarce in practice. This drives our interest to the unsupervised representation learning. Introduction. Recent studies have shown that self-supervised learning is an effective approach for learning representations, but most of them rely on the empirical design of transformations and pretext tasks. Methods. To avoid the subjectivity associated with these methods, we propose the MVCNet, a novel unsupervised three dimensional (3D) representation learning method working in a transformation-free manner. We view each 3D lesion from different orientations to collect multiple two dimensional (2D) views. Then, an embedding function is learned by minimizing a contrastive loss so that the 2D views of the same 3D lesion are aggregated, and the 2D views of different lesions are separated. We evaluate the representations by training a simple classification head upon the embedding layer. Results. Experimental results show that MVCNet achieves state-of-the-art accuracies on the LIDC-IDRI (89.55%), LNDb (77.69%) and TianChi (79.96%) datasets for unsupervised representation learning. When fine-tuned on 10% of the labeled data, the accuracies are comparable to the supervised learning model (89.46% vs. 85.03%, 73.85% vs. 73.44%, 83.56% vs. 83.34% on the three datasets, respectively). Conclusion. Results indicate the superiority of MVCNet in learning representations with limited annotations.
updated: Wed Aug 18 2021 14:53:15 GMT+0000 (UTC)
published: Tue Aug 17 2021 14:47:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト