arXiv reaDer
ST-MTL:ロボット手術で器具を追跡しながらスキャンパスを予測する時空間マルチタスク学習モデル
ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath While Tracking Instruments in Robotic Surgery
追跡機器を使用したタスク指向の注意の表現学習は、画像誘導ロボット手術において大きな可能性を秘めています。カメラ制御を自動化する認知能力を組み込むことにより、外科医は手術器具の取り扱いにより集中することができます。目的は、手術時間を短縮し、外科医と患者の両方の手術を容易にすることです。リアルタイムの手術器具のセグメンテーションとタスク指向の顕著性検出のために、共有エンコーダーと時空間デコーダーを備えたエンドツーエンドのトレーニング可能な時空間マルチタスク学習(ST-MTL)モデルを提案します。共有パラメーターのMTLモデルでは、複数の損失関数を収束点に最適化することは、依然として未解決の課題です。各デコーダーの独立した勾配を計算することにより、新しい非同期時空間最適化(ASTO)手法で問題に取り組みます。また、弱い特徴を保持し、強い特徴を励起し、動的な空間的およびチャネルごとの特徴の再キャリブレーションを実行するスキップ接続をキャストすることにより、競争力のあるスクイーズおよび励起ユニットを設計します。より良い長期の時空間依存性をキャプチャするために、連続するフレームの高レベルのエンコーダ機能を連結することにより、長短期記憶(LSTM)モジュールを強化します。また、計算効率を維持することによってタスク指向の顕著性検出を強化するために、シンクホーンの正則化された損失を導入します。 MICCAI 2017ロボット機器セグメンテーションチャレンジのデータセットで、タスク対応の顕著性マップと機器のスキャンパスを生成します。最先端のセグメンテーションおよび顕著性の方法と比較して、私たちのモデルは、ほとんどの評価指標を上回り、チャレンジで卓越したパフォーマンスを生み出します。
Representation learning of the task-oriented attention while tracking instrument holds vast potential in image-guided robotic surgery. Incorporating cognitive ability to automate the camera control enables the surgeon to concentrate more on dealing with surgical instruments. The objective is to reduce the operation time and facilitate the surgery for both surgeons and patients. We propose an end-to-end trainable Spatio-Temporal Multi-Task Learning (ST-MTL) model with a shared encoder and spatio-temporal decoders for the real-time surgical instrument segmentation and task-oriented saliency detection. In the MTL model of shared parameters, optimizing multiple loss functions into a convergence point is still an open challenge. We tackle the problem with a novel asynchronous spatio-temporal optimization (ASTO) technique by calculating independent gradients for each decoder. We also design a competitive squeeze and excitation unit by casting a skip connection that retains weak features, excites strong features, and performs dynamic spatial and channel-wise feature recalibration. To capture better long term spatio-temporal dependencies, we enhance the long-short term memory (LSTM) module by concatenating high-level encoder features of consecutive frames. We also introduce Sinkhorn regularized loss to enhance task-oriented saliency detection by preserving computational efficiency. We generate the task-aware saliency maps and scanpath of the instruments on the dataset of the MICCAI 2017 robotic instrument segmentation challenge. Compared to the state-of-the-art segmentation and saliency methods, our model outperforms most of the evaluation metrics and produces an outstanding performance in the challenge.
updated: Fri Dec 10 2021 15:20:27 GMT+0000 (UTC)
published: Fri Dec 10 2021 15:20:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト