最近では、変圧器ベースの U 字型アーキテクチャを構築するための多くの試みが行われており、CNN ベースのライバルよりも優れた新しい方法が提案されています。ただし、トランスフォーマーのパッチ分割操作のために、予測されたマスクのブロックノイズやトリミングされたエッジなどの深刻な問題が残っています。この作業では、新しく導入された焦点変調メカニズムの助けを借りて、医用画像セグメンテーションのための新しい U 字型アーキテクチャを提案します。提案されたアーキテクチャには、エンコーダとデコーダの非対称深度があります。ローカルおよびグローバルな機能を集約する焦点モジュールの機能により、モデルはトランスフォーマーの広い受容野とCNNのローカル表示に同時に利益をもたらす可能性があります。これにより、提案された方法は、Swin-UNet と呼ばれる最も強力な変圧器ベースの U 字型モデルの 1 つよりも優れたパフォーマンスを発揮するために、ローカル機能とグローバル機能の使用のバランスを取ることができます。 Synapse データセットでは、DICE スコアが 1.68% 向上し、HD メトリックが 0.89 向上しました。また、データが非常に限られているため、NeoPolyp データセットの DICE スコアは 4.25% 高くなりました。私たちの実装は、https://github.com/givkashi/Focal-UNet で入手できます。
Recently, many attempts have been made to construct a transformer base U-shaped architecture, and new methods have been proposed that outperformed CNN-based rivals. However, serious problems such as blockiness and cropped edges in predicted masks remain because of transformers' patch partitioning operations. In this work, we propose a new U-shaped architecture for medical image segmentation with the help of the newly introduced focal modulation mechanism. The proposed architecture has asymmetric depths for the encoder and decoder. Due to the ability of the focal module to aggregate local and global features, our model could simultaneously benefit the wide receptive field of transformers and local viewing of CNNs. This helps the proposed method balance the local and global feature usage to outperform one of the most powerful transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp dataset. Our implementations are available at: https://github.com/givkashi/Focal-UNet