arXiv reaDer
TransAttUnet:医療画像セグメンテーション用のトランスフォーマーを備えたマルチレベルの注意誘導U-Net
TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation
ディープエンコーダ-デコーダアーキテクチャと大規模な注釈付き医療データセットの開発により、自動医療画像セグメンテーションの開発で大きな進歩が達成されました。畳み込み層のスタッキングと連続するサンプリング操作により、既存の標準モデルでは必然的に、グローバルなコンテキスト機能の依存関係を完全にモデル化できない機能表現の情報不況の問題が発生します。上記の課題を克服するために、この論文では、TransAttUnetと呼ばれる新しいTransformerベースの医用画像セマンティックセグメンテーションフレームワークを提案します。このフレームワークでは、マルチレベルのガイド付き注意とマルチスケールスキップ接続が共同で設計され、従来のU字型の機能と柔軟性が効果的に強化されます。建築。 Transformerに触発され、Transformer Self Attention(TSA)とGlobal Spatial Attention(GSA)の両方を備えた新しい自己認識アテンション(SAA)モジュールがTransAttUnetに組み込まれ、エンコーダー機能間の非ローカル相互作用を効果的に学習します。特に、デコーダーブロック間に追加のマルチスケールスキップ接続を確立して、さまざまなセマンティックスケールのアップサンプリング機能を集約します。このようにして、マルチスケールコンテキスト情報の表現能力が強化され、識別可能な特徴が生成されます。これらの補完的なコンポーネントの恩恵を受けて、提案されたTransAttUnetは、情報不況の問題によって引き起こされる細部の損失を効果的に軽減し、医療画像分析の診断感度とセグメンテーション品質を向上させることができます。異なる画像の複数の医用画像セグメンテーションデータセットに関する広範な実験は、私たちの方法が常に最先端のベースラインを上回っていることを示しています。
With the development of deep encoder-decoder architectures and large-scale annotated medical datasets, great progress has been achieved in the development of automatic medical image segmentation. Due to the stacking of convolution layers and the consecutive sampling operations, existing standard models inevitably encounter the information recession problem of feature representations, which fails to fully model the global contextual feature dependencies. To overcome the above challenges, this paper proposes a novel Transformer based medical image semantic segmentation framework called TransAttUnet, in which the multi-level guided attention and multi-scale skip connection are jointly designed to effectively enhance the functionality and flexibility of traditional U-shaped architecture. Inspired by Transformer, a novel self-aware attention (SAA) module with both Transformer Self Attention (TSA) and Global Spatial Attention (GSA) is incorporated into TransAttUnet to effectively learn the non-local interactions between encoder features. In particular, we also establish additional multi-scale skip connections between decoder blocks to aggregate the different semantic-scale upsampling features. In this way, the representation ability of multi-scale context information is strengthened to generate discriminative features. Benefitting from these complementary components, the proposed TransAttUnet can effectively alleviate the loss of fine details caused by the information recession problem, improving the diagnostic sensitivity and segmentation quality of medical image analysis. Extensive experiments on multiple medical image segmentation datasets of different imaging demonstrate that our method consistently outperforms the state-of-the-art baselines.
updated: Mon Jul 12 2021 09:17:06 GMT+0000 (UTC)
published: Mon Jul 12 2021 09:17:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト