畳み込みニューラル ネットワーク (CNN) は、エッジやテクスチャなどの高レベル (ローカル) 情報をキャプチャすることにより、医療画像のセグメンテーション タスクで優れたパフォーマンスを発揮してきました。ただし、コンボリューション カーネルの視野は限られているため、CNN がグローバルな情報を完全に表現することは困難です。最近、トランスフォーマーは、長距離の依存関係をより適切にモデル化できるため、医療画像のセグメンテーションに優れたパフォーマンスを示しています。それにもかかわらず、トランスフォーマーは、CNN と同じくらい効果的に高レベルの空間特徴をキャプチャするのに苦労しています。優れたセグメンテーション モデルは、正確かつ意味的に正確であるために、ローカルおよびグローバルの特徴からより適切な表現を学習する必要があります。以前の研究では、変換エンコーダを追加した U 字型セグメンテーション ネットワークである CATS を提案しました。この研究では、このモデルをさらに拡張し、ハイブリッド エンコーダを備えた CATS v2 を提案します。具体的には、ハイブリッド エンコーダは、シフト ウィンドウを備えたトランスフォーマ パスと並行した CNN ベースのエンコーダ パスで構成され、ローカル情報とグローバル情報の両方をより適切に活用して、堅牢な 3D 医用画像セグメンテーションを生成します。畳み込みエンコーダーとトランスフォーマーからの情報を、異なる解像度のスキップ接続で融合して、最終的なセグメンテーションを形成します。提案された方法は、2 つの公開課題データセット、クロスモダリティ ドメイン アダプテーション (CrossMoDA) と医療セグメンテーション デカトロン (MSD-5) のタスク 5 で評価され、それぞれ前庭神経鞘腫 (VS) と前立腺をセグメント化します。最先端の方法と比較して、私たちのアプローチは、より高い Dice スコアの点で優れたパフォーマンスを示しています。
Convolutional Neural Networks (CNNs) have exhibited strong performance in medical image segmentation tasks by capturing high-level (local) information, such as edges and textures. However, due to the limited field of view of convolution kernel, it is hard for CNNs to fully represent global information. Recently, transformers have shown good performance for medical image segmentation due to their ability to better model long-range dependencies. Nevertheless, transformers struggle to capture high-level spatial features as effectively as CNNs. A good segmentation model should learn a better representation from local and global features to be both precise and semantically accurate. In our previous work, we proposed CATS, which is a U-shaped segmentation network augmented with transformer encoder. In this work, we further extend this model and propose CATS v2 with hybrid encoders. Specifically, hybrid encoders consist of a CNN-based encoder path paralleled to a transformer path with a shifted window, which better leverage both local and global information to produce robust 3D medical image segmentation. We fuse the information from the convolutional encoder and the transformer at the skip connections of different resolutions to form the final segmentation. The proposed method is evaluated on two public challenge datasets: Cross-Modality Domain Adaptation (CrossMoDA) and task 5 of Medical Segmentation Decathlon (MSD-5), to segment vestibular schwannoma (VS) and prostate, respectively. Compared with the state-of-the-art methods, our approach demonstrates superior performance in terms of higher Dice scores.