arXiv reaDer
Swin UNETR:MRI画像における脳腫瘍のセマンティックセグメンテーションのためのSwinトランスフォーマー
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images
脳腫瘍のセマンティックセグメンテーションは、臨床医が患者を診断し、悪性実体の進行を連続的に研究するのに役立つ複数のMRIイメージングモダリティを含む基本的な医用画像分析タスクです。近年、完全畳み込みニューラルネットワーク(FCNN)アプローチは、3D医療画像セグメンテーションの事実上の標準になりました。人気のある「U字型」ネットワークアーキテクチャは、さまざまな2Dおよび3Dセマンティックセグメンテーションタスクで、さまざまなイメージングモダリティにわたって最先端のパフォーマンスベンチマークを達成しています。ただし、FCNNの畳み込み層のカーネルサイズが制限されているため、長距離情報のモデリングのパフォーマンスは最適ではなく、これにより、さまざまなサイズの腫瘍のセグメンテーションに欠陥が生じる可能性があります。一方、トランスフォーマーモデルは、自然言語処理やコンピュータービジョンなど、複数のドメインでこのような長距離情報をキャプチャする優れた機能を実証しています。ビジョントランスフォーマーとそのバリアントの成功に触発されて、Swin UNEt TRansformers(Swin UNETR)と呼ばれる新しいセグメンテーションモデルを提案します。具体的には、3D脳腫瘍セマンティックセグメンテーションのタスクは、シーケンスからシーケンスへの予測問題として再定式化され、マルチモーダル入力データが埋め込みの1Dシーケンスに投影され、エンコーダーとして階層型Swinトランスフォーマーへの入力として使用されます。スウィントランスフォーマーエンコーダーは、シフトされたウィンドウを利用して自己注意を計算することにより、5つの異なる解像度で機能を抽出し、スキップ接続を介して各解像度でFCNNベースのデコーダーに接続されます。私たちはBraTS2021セグメンテーションチャレンジに参加しており、提案されたモデルは検証フェーズで最もパフォーマンスの高いアプローチの1つにランクされています。コード:https://monai.io/research/swin-unetr
Semantic segmentation of brain tumors is a fundamental medical image analysis task involving multiple MRI imaging modalities that can assist clinicians in diagnosing the patient and successively studying the progression of the malignant entity. In recent years, Fully Convolutional Neural Networks (FCNNs) approaches have become the de facto standard for 3D medical image segmentation. The popular "U-shaped" network architecture has achieved state-of-the-art performance benchmarks on different 2D and 3D semantic segmentation tasks and across various imaging modalities. However, due to the limited kernel size of convolution layers in FCNNs, their performance of modeling long-range information is sub-optimal, and this can lead to deficiencies in the segmentation of tumors with variable sizes. On the other hand, transformer models have demonstrated excellent capabilities in capturing such long-range information in multiple domains, including natural language processing and computer vision. Inspired by the success of vision transformers and their variants, we propose a novel segmentation model termed Swin UNEt TRansformers (Swin UNETR). Specifically, the task of 3D brain tumor semantic segmentation is reformulated as a sequence to sequence prediction problem wherein multi-modal input data is projected into a 1D sequence of embedding and used as an input to a hierarchical Swin transformer as the encoder. The swin transformer encoder extracts features at five different resolutions by utilizing shifted windows for computing self-attention and is connected to an FCNN-based decoder at each resolution via skip connections. We have participated in BraTS 2021 segmentation challenge, and our proposed model ranks among the top-performing approaches in the validation phase. Code: https://monai.io/research/swin-unetr
updated: Tue Jan 04 2022 18:01:34 GMT+0000 (UTC)
published: Tue Jan 04 2022 18:01:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト