Local block-wise self attention for normal organ segmentation
  頭頸部コンピューター断層撮影(CT)画像に適用される通常の構造セグメンテーションアプローチに基づく新しい計算的に単純なローカルブロックごとの自己注意を開発しました。私たちの方法は、正常な臓器が画像内の空間的位置と相互関係に規則性を示すという洞察を使用しており、これを利用して特徴情報を集約するために必要な計算を簡素化できます。これを実現するには、互いに情報をやり取りしてアテンションマップを導出するローカルの自己アテンションブロックを使用します。追加のアテンションレイヤーを追加すると、コンテキストフィールドが増加し、関連する構造から集中的なアテンションがキャプチャされることがわかります。 U-netを使用してアプローチを開発し、複数の最先端の自己注意方法と比較しました。すべてのモデルは48の内部ヘッドネックCTスキャンでトレーニングされ、計算解剖学データセットの外部パブリックドメインデータベースからの48 CTスキャンでテストされました。我々の方法は、0.85 $ \ pm $ 0.04、左右耳下腺の0.86 $ \ pm $ 0.04、左右の顎下腺の0.79 $ \ pm $ 0.07および0.77 $ \ pm $ 0.05、0.93 $ \の最高のダイス類似度係数セグメンテーション精度を達成しました。下顎骨はpm $ 0.01、脳幹は0.88 $ \ pm $ 0.02であり、標準U-netと比較して、画像あたりの計算時間は66.7 \%、モデルパラメーターは0.15 \%の最小の増加です。点ごとの空間的注意と呼ばれる最高の最先端の方法は、\ textcolor {black {同等の精度を達成しましたが、標準のU-netと比較して計算時間が516.7 \%増加し、パラメータが8.14 \%増加しました。最後に、アブレーションテストを実行し、アテンションブロックサイズ、アテンションブロックのオーバーラップ、追加のアテンションレイヤー、およびアテンションブロックの配置がセグメンテーションパフォーマンスに与える影響を調べました。
We developed a new and computationally simple local block-wise self attention based normal structures segmentation approach applied to head and neck computed tomography (CT) images. Our method uses the insight that normal organs exhibit regularity in their spatial location and inter-relation within images, which can be leveraged to simplify the computations required to aggregate feature information. We accomplish this by using local self attention blocks that pass information between each other to derive the attention map. We show that adding additional attention layers increases the contextual field and captures focused attention from relevant structures. We developed our approach using U-net and compared it against multiple state-of-the-art self attention methods. All models were trained on 48 internal headneck CT scans and tested on 48 CT scans from the external public domain database of computational anatomy dataset. Our method achieved the highest Dice similarity coefficient segmentation accuracy of 0.85$\pm$0.04, 0.86$\pm$0.04 for left and right parotid glands, 0.79$\pm$0.07 and 0.77$\pm$0.05 for left and right submandibular glands, 0.93$\pm$0.01 for mandible and 0.88$\pm$0.02 for the brain stem with the lowest increase of 66.7\% computing time per image and 0.15\% increase in model parameters compared with standard U-net. The best state-of-the-art method called point-wise spatial attention, achieved \textcolor{black{comparable accuracy but with 516.7\% increase in computing time and 8.14\% increase in parameters compared with standard U-net. Finally, we performed ablation tests and studied the impact of attention block size, overlap of the attention blocks, additional attention layers, and attention block placement on segmentation performance.
updated: Wed Sep 11 2019 13:50:53 GMT+0000 (UTC)
published: Wed Sep 11 2019 13:50:53 GMT+0000 (UTC)
