arXiv reaDer
Attention-Guided Lightweight Network for Real-Time Segmentation of Robotic Surgical Instruments
 手術器具のリアルタイムセグメンテーションは、ロボット支援手術で重要な役割を果たします。ただし、計算コストが高く、推論速度が遅いため、深層学習モデルを実装して手術器具をリアルタイムでセグメンテーションすることは、依然として困難な作業です。この論文では、手術器具をリアルタイムでセグメント化できる注意誘導型軽量ネットワーク(LWANet)を提案します。 LWANetは、エンコーダーが軽量ネットワークのMobileNetV2であるエンコーダーデコーダーアーキテクチャを採用しており、デコーダーは、深度ごとの分離可能なたたみ込み、注意融合ブロック、転置たたみ込みで構成されています。深さ方向に分離可能な畳み込みは、デコーダーを構築するための基本単位として使用されます。これにより、モデルのサイズと計算コストを削減できます。注意融合ブロックは、グローバルコンテキストをキャプチャし、チャネル間の意味の依存関係をエンコードしてターゲット領域を強調し、手術器具の特定に貢献します。転置畳み込みは、洗練されたエッジを取得するためにフィーチャマップをアップサンプリングするために実行されます。 LWANetは、ほとんど計算コストをかけずに、リアルタイムで手術器具をセグメント化できます。 960 * 544入力に基づいて、その推論速度はわずか3.39 GFLOPで39 fpsに達することができます。また、モデルサイズが小さく、パラメーターの数は2.06 Mのみです。提案されたネットワークは2つのデータセットで評価されます。 Cata7で最新のパフォーマンス94.10%の平均IOUを達成し、EndoVis 2017で平均IOUが4.10%増加した新しいレコードを取得します。
The real-time segmentation of surgical instruments plays a crucial role in robot-assisted surgery. However, it is still a challenging task to implement deep learning models to do real-time segmentation for surgical instruments due to their high computational costs and slow inference speed. In this paper, we propose an attention-guided lightweight network (LWANet), which can segment surgical instruments in real-time. LWANet adopts encoder-decoder architecture, where the encoder is the lightweight network MobileNetV2, and the decoder consists of depthwise separable convolution, attention fusion block, and transposed convolution. Depthwise separable convolution is used as the basic unit to construct the decoder, which can reduce the model size and computational costs. Attention fusion block captures global contexts and encodes semantic dependencies between channels to emphasize target regions, contributing to locating the surgical instrument. Transposed convolution is performed to upsample feature maps for acquiring refined edges. LWANet can segment surgical instruments in real-time while takes little computational costs. Based on 960*544 inputs, its inference speed can reach 39 fps with only 3.39 GFLOPs. Also, it has a small model size and the number of parameters is only 2.06 M. The proposed network is evaluated on two datasets. It achieves state-of-the-art performance 94.10% mean IOU on Cata7 and obtains a new record on EndoVis 2017 with a 4.10% increase on mean IOU.
updated: Sun Sep 13 2020 14:55:16 GMT+0000 (UTC)
published: Thu Oct 24 2019 13:48:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト