医療画像のセグメンテーションは、複雑で低コントラストの解剖学的構造にとって特に困難なままです。この論文では、画像セグメンテーションのためのU字型アーキテクチャとトランスフォーマーからの自己および相互注意を組み合わせたU-トランスフォーマーネットワークを紹介します。 U-Transformerは、U-Netが長距離のコンテキスト相互作用と空間依存性をモデル化できないことを克服します。これらは、困難なコンテキストでの正確なセグメンテーションにとってほぼ間違いなく重要です。この目的のために、アテンションメカニズムは2つの主要なレベルで組み込まれています。セルフアテンションモジュールはエンコーダ機能間のグローバルな相互作用を活用し、スキップ接続でのクロスアテンションは非セマンティックを除外することでU-Netデコーダーの細かい空間回復を可能にします特徴。 2つの腹部CT画像データセットでの実験は、U-NetおよびローカルのAttention U-Netと比較して、U-Transformerによってもたらされる大きなパフォーマンスの向上を示しています。また、自己注意と相互注意の両方を使用することの重要性、およびU-Transformerによってもたらされる優れた解釈可能性機能についても強調します。
Medical image segmentation remains particularly challenging for complex and low-contrast anatomical structures. In this paper, we introduce the U-Transformer network, which combines a U-shaped architecture for image segmentation with self- and cross-attention from Transformers. U-Transformer overcomes the inability of U-Nets to model long-range contextual interactions and spatial dependencies, which are arguably crucial for accurate segmentation in challenging contexts. To this end, attention mechanisms are incorporated at two main levels: a self-attention module leverages global interactions between encoder features, while cross-attention in the skip connections allows a fine spatial recovery in the U-Net decoder by filtering out non-semantic features. Experiments on two abdominal CT-image datasets show the large performance gain brought out by U-Transformer compared to U-Net and local Attention U-Nets. We also highlight the importance of using both self- and cross-attention, and the nice interpretability features brought out by U-Transformer.