arXiv reaDer
医用画像の分類とセグメンテーションのための統合された2Dおよび3D事前トレーニング
Unified 2D and 3D Pre-training for Medical Image classification and Segmentation
自己監視学習(SSL)は、ラベルのないデータをより有効に活用するための大きな機会を開きます。注釈がないことで一般的に知られている医療画像分析には不可欠です。ただし、SSLでラベルのない医療画像をできるだけ多く使用しようとすると、寸法の壁を破る(つまり、2D画像と3D画像の両方を共同で使用できるようにする)必要があります。この論文では、学生と教師のパラダイムに基づいたUniversal Self-Supervised Transformer(USST)フレームワークを提案し、多次元のラベルのない膨大な医療データを活用して、豊かな表現を学習することを目指しています。これを実現するために、Pyramid Transformer U-Net(PTU)をバックボーンとして設計します。これは、切り替え可能なパッチ埋め込み(SPE)レイヤーとTransformerレイヤーで構成されます。 SPEレイヤーは、入力次元に応じて2Dまたは3Dパッチ埋め込みに切り替わります。その後、画像は元の寸法に関係なくシーケンスに変換されます。次に、Transformerレイヤーは、シーケンス間の方法で長期的な依存関係をモデル化するため、USSTは2D画像と3D画像の両方から表現を学習できます。 USSTには、現在のディメンション固有のSSLと比較して2つの明らかなメリットがあります。(1)より効果的-より多くの多様なデータから表現を学習できます。 (2)より用途が広い-さまざまなダウンストリームタスクに転送できます。結果は、USSTが6つの2D / 3D医用画像分類およびセグメンテーションタスクで有望な結果を提供し、教師ありImageNetの事前トレーニングおよび高度なSSLの対応物を大幅に上回っていることを示しています。
Self-supervised learning (SSL) opens up huge opportunities for better utilizing unlabeled data. It is essential for medical image analysis that is generally known for its lack of annotations. However, when we attempt to use as many as possible unlabeled medical images in SSL, breaking the dimension barrier (i.e. , making it possible to jointly use both 2D and 3D images) becomes a must. In this paper, we propose a Universal Self-Supervised Transformer (USST) framework based on the student-teacher paradigm, aiming to leverage a huge of unlabeled medical data with multiple dimensions to learn rich representations. To achieve this, we design a Pyramid Transformer U-Net (PTU) as the backbone, which is composed of switchable patch embedding (SPE) layers and Transformer layers. The SPE layer switches to either 2D or 3D patch embedding depending on the input dimension. After that, the images are converted to a sequence regardless of their original dimensions. The Transformer layer then models the long-term dependencies in a sequence-to-sequence manner, thus enabling USST to learn representations from both 2D and 3D images. USST has two obvious merits compared to current dimension-specific SSL: (1) more effective - can learn representations from more and diverse data; and (2) more versatile - can be transferred to various downstream tasks. The results show that USST provides promising results on six 2D/3D medical image classification and segmentation tasks, outperforming the supervised ImageNet pre-training and advanced SSL counterparts substantially.
updated: Fri Dec 17 2021 07:27:23 GMT+0000 (UTC)
published: Fri Dec 17 2021 07:27:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト