ボリュームセグメンテーションのためのTransformerアーキテクチャを提案します。これは、ローカルおよびグローバルな空間キューのエンコードで複雑なバランスを保ち、ボリュームのすべての軸に沿って情報を保持する必要がある難しいタスクです。提案された設計のエンコーダーは、ローカルキューとグローバルキューを同時にエンコードする自己注意メカニズムの恩恵を受けます。一方、デコーダーは、並列の自己注意とクロスアテンションの定式化を使用して、境界を洗練するための詳細をキャプチャします。経験的に、提案された設計の選択により、計算効率の高いモデルが得られ、Medical Segmentation Decathlon(MSD)脳腫瘍セグメンテーション(BraTS)タスクで競争力のある有望な結果が得られることを示します。さらに、モデルによって学習された表現がデータの破損に対して堅牢であることを示します。 https://github.com/himashi92/VT-UNetOurコードの実装は公開されています。
We propose a Transformer architecture for volumetric segmentation, a challenging task that requires keeping a complex balance in encoding local and global spatial cues, and preserving information along all axes of the volume. Encoder of the proposed design benefits from self-attention mechanism to simultaneously encode local and global cues, while the decoder employs a parallel self and cross attention formulation to capture fine details for boundary refinement. Empirically, we show that the proposed design choices result in a computationally efficient model, with competitive and promising results on the Medical Segmentation Decathlon (MSD) brain tumor segmentation (BraTS) Task. We further show that the representations learned by our model are robust against data corruptions. https://github.com/himashi92/VT-UNetOur code implementation is publicly available.