arXiv reaDer
イントラインターコントラスト クラスタリングによる共同自己教師ありイメージ ボリューム表現学習
Joint Self-Supervised Image-Volume Representation Learning with Intra-Inter Contrastive Clustering
ディープ ネットワークのトレーニングのために、完全に注釈が付けられたサンプルを含む大規模な医療データセットを収集することは、特に 3D ボリューム データの場合、非常に高価です。自己教師あり学習 (SSL) の最近のブレークスルーは、ラベル付けされていないデータから特徴表現を学習することで、ラベル付けされたトレーニング サンプルの不足を克服する機能を提供します。ただし、医療分野における現在の SSL 技術のほとんどは、2D 画像または 3D ボリューム用に設計されています。実際には、これにより、2D データと 3D データの両方を含む可能性のある多数のソースからのラベルなしデータを完全に活用する機能が制限されます。さらに、これらの事前トレーニング済みネットワークの使用は、互換性のあるデータ ディメンションを持つダウンストリーム タスクに制限されます。この論文では、2D および 3D データモダリティでの教師なし共同学習の新しいフレームワークを提案します。 3D ボリュームから抽出された 2D 画像または 2D スライスのセットが与えられた場合、異なるクラスの 2D 対照的クラスタリング問題に基づいて SSL タスクを構築します。 3D ボリュームは、各スライスでベクトル化された埋め込みを計算し、Transformer の変形可能なセルフアテンション メカニズムを介して全体的な機能を組み立てることによって活用され、3D ボリューム内のスライス間に長距離の依存関係を組み込むことができます。これらの全体的な機能は、事前にトレーニングされた言語モデルに触発された、新しい 3D クラスタリング契約ベースの SSL タスクとマスキング埋め込み予測を定義するためにさらに利用されます。 3D 脳セグメンテーション、肺結節検出、3D 心臓構造セグメンテーション、異常な胸部 X 線検出などのダウンストリーム タスクに関する実験は、2D および 3D SSL の共同アプローチの有効性を示しています。プレーンな 2D Deep-ClusterV2 と SwAV を大幅に改善し、さまざまな最新の 2D および 3D SSL アプローチを凌駕します。
Collecting large-scale medical datasets with fully annotated samples for training of deep networks is prohibitively expensive, especially for 3D volume data. Recent breakthroughs in self-supervised learning (SSL) offer the ability to overcome the lack of labeled training samples by learning feature representations from unlabeled data. However, most current SSL techniques in the medical field have been designed for either 2D images or 3D volumes. In practice, this restricts the capability to fully leverage unlabeled data from numerous sources, which may include both 2D and 3D data. Additionally, the use of these pre-trained networks is constrained to downstream tasks with compatible data dimensions. In this paper, we propose a novel framework for unsupervised joint learning on 2D and 3D data modalities. Given a set of 2D images or 2D slices extracted from 3D volumes, we construct an SSL task based on a 2D contrastive clustering problem for distinct classes. The 3D volumes are exploited by computing vectored embedding at each slice and then assembling a holistic feature through deformable self-attention mechanisms in Transformer, allowing incorporating long-range dependencies between slices inside 3D volumes. These holistic features are further utilized to define a novel 3D clustering agreement-based SSL task and masking embedding prediction inspired by pre-trained language models. Experiments on downstream tasks, such as 3D brain segmentation, lung nodule detection, 3D heart structures segmentation, and abnormal chest X-ray detection, demonstrate the effectiveness of our joint 2D and 3D SSL approach. We improve plain 2D Deep-ClusterV2 and SwAV by a significant margin and also surpass various modern 2D and 3D SSL approaches.
updated: Sun Dec 04 2022 18:57:44 GMT+0000 (UTC)
published: Sun Dec 04 2022 18:57:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト