arXiv reaDer
内視鏡ビデオにおけるリアルタイム機器セグメンテーションのためのマルチフレーム機能集約
Multi-frame Feature Aggregation for Real-time Instrument Segmentation in Endoscopic Video
ディープラーニングベースの方法は、手術器具のセグメンテーションで有望な結果を達成しています。ただし、計算コストが高いため、ロボット支援手術のオンライン手術ビデオ分析など、時間に敏感なタスクへのディープモデルの適用が制限される場合があります。さらに、現在の方法は、さまざまな照明条件や血液の存在など、手術画像の困難な条件に依然として苦しんでいる可能性があります。ビデオフレームの特徴をリカレントモードで時間的および空間的に集約するための新しいマルチフレーム特徴集約(MFFA)モジュールを提案します。深い特徴抽出の計算負荷をシーケンシャルフレームに分散することで、軽量エンコーダーを使用して、各タイムステップでの計算コストを削減できます。さらに、公共の手術ビデオは通常、フレームごとにラベル付けされていないため、ネットワークトレーニングを支援するために単一のラベル付きフレームから手術フレームシーケンスをランダムに合成できる方法を開発します。私たちのアプローチは、2つの公的手術データセットの対応するより深いセグメンテーションモデルよりも優れたパフォーマンスを達成することを示しています。
Deep learning-based methods have achieved promising results on surgical instrument segmentation. However, the high computation cost may limit the application of deep models to time-sensitive tasks such as online surgical video analysis for robotic-assisted surgery. Moreover, current methods may still suffer from challenging conditions in surgical images such as various lighting conditions and the presence of blood. We propose a novel Multi-frame Feature Aggregation (MFFA) module to aggregate video frame features temporally and spatially in a recurrent mode. By distributing the computation load of deep feature extraction over sequential frames, we can use a lightweight encoder to reduce the computation costs at each time step. Moreover, public surgical videos usually are not labeled frame by frame, so we develop a method that can randomly synthesize a surgical frame sequence from a single labeled frame to assist network training. We demonstrate that our approach achieves superior performance to corresponding deeper segmentation models on two public surgery datasets.
updated: Mon Jul 26 2021 00:39:27 GMT+0000 (UTC)
published: Tue Nov 17 2020 16:27:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト