ポリープの特定は、コンピューター支援臨床サポートシステムでの内視鏡画像の自動分析にとって困難です。畳み込みネットワーク(CNN)、トランスフォーマー、およびそれらの組み合わせに基づくモデルは、有望な結果でポリープをセグメント化するために提案されています。ただし、これらのアプローチには、ポリープの局所的な外観のみをモデル化する場合、またはデコードプロセスでの空間依存性のためのマルチレベル機能がない場合のいずれかに制限があります。この論文では、これらの制限に対処するための新しいネットワーク、つまりColonFormerを提案します。 ColonFormerは、エンコーダーブランチとデコーダーブランチの両方で長距離セマンティック情報をモデル化できるエンコーダーデコーダーアーキテクチャです。エンコーダーは、マルチスケールでグローバルな意味関係をモデル化するためのトランスフォーマーに基づく軽量アーキテクチャーです。デコーダーは、機能表現を充実させるためにマルチレベル機能を学習するために設計された階層ネットワーク構造です。さらに、正確なセグメンテーションのためにグローバルマップ内のポリープオブジェクトの境界をリファインするための新しいスキップ接続技術を備えたリファインメントモジュールが追加されています。 Kvasir、CVC-Clinic DB、CVC-ColonDB、CVC-T、ETIS-Laribなど、ポリープセグメンテーションの5つの一般的なベンチマークデータセットで広範な実験が行われました。実験結果は、ColonFormerがすべてのベンチマークデータセットで他の最先端の方法よりも優れていることを示しています。
Identifying polyps is challenging for automatic analysis of endoscopic images in computer-aided clinical support systems. Models based on convolutional networks (CNN), transformers, and their combinations have been proposed to segment polyps with promising results. However, those approaches have limitations either in modeling the local appearance of the polyps only or lack of multi-level features for spatial dependency in the decoding process. This paper proposes a novel network, namely ColonFormer, to address these limitations. ColonFormer is an encoder-decoder architecture capable of modeling long-range semantic information at both encoder and decoder branches. The encoder is a lightweight architecture based on transformers for modeling global semantic relations at multi scales. The decoder is a hierarchical network structure designed for learning multi-level features to enrich feature representation. Besides, a refinement module is added with a new skip connection technique to refine the boundary of polyp objects in the global map for accurate segmentation. Extensive experiments have been conducted on five popular benchmark datasets for polyp segmentation, including Kvasir, CVC-Clinic DB, CVC-ColonDB, CVC-T, and ETIS-Larib. Experimental results show that our ColonFormer outperforms other state-of-the-art methods on all benchmark datasets.