目的:外科活動の自動セグメンテーションと分類は、コンピューター支援介入の高度なサポートとロボット支援手術の自律機能を提供するために重要です。以前の作品は、フェーズなどの粗いアクティビティ、またはジェスチャーなどのきめ細かいアクティビティのいずれかを認識することに焦点を当てていました。この作業は、ビデオから直接2つの補完的なレベルの粒度、つまりフェーズとステップを共同で認識することを目的としています。方法:腹腔鏡下胃バイパス手術のために、2つの相関する外科的活動、フェーズとステップを紹介します。マルチタスクマルチステージ畳み込みネットワーク(MTMS-TCN)とマルチタスク畳み込みニューラルネットワーク(CNN)トレーニングセットアップを提案して、フェーズとステップを共同で予測し、それらの相補性から利益を得て、実行をより適切に評価します。手順。提案された方法を、40の外科的処置(Bypass40)で構成される大規模なビデオデータセットで評価します。結果:Bypass40データセットの位相認識とステップ認識の両方のいくつかのベースラインモデルからの実験結果を示します。提案されたMTMS-TCN法は、単一タスク法と比較して、位相認識とステップ認識の両方で、精度、精度、再現率が1〜2%優れています。さらに、ステップ認識の場合、MTMS-TCNは、精度、精度、再現率において、LSTMベースのモデルと比較して3〜6%の優れたパフォーマンスを実現します。結論:この作業では、外科活動認識のためのマルチタスクマルチステージ時間畳み込みネットワークを提示します。これは、マルチレベルの注釈付きのBypass40胃バイパスデータセットのシングルタスクモデルと比較して改善された結果を示しています。提案された方法は、フェーズとステップの共同モデリングが、各タイプの活動の全体的な認識を改善するのに有益であることを示しています。
Purpose: Automatic segmentation and classification of surgical activity is crucial for providing advanced support in computer-assisted interventions and autonomous functionalities in robot-assisted surgeries. Prior works have focused on recognizing either coarse activities, such as phases, or fine-grained activities, such as gestures. This work aims at jointly recognizing two complementary levels of granularity directly from videos, namely phases and steps. Method: We introduce two correlated surgical activities, phases and steps, for the laparoscopic gastric bypass procedure. We propose a Multi-task Multi-Stage Temporal Convolutional Network (MTMS-TCN) along with a multi-task Convolutional Neural Network (CNN) training setup to jointly predict the phases and steps and benefit from their complementarity to better evaluate the execution of the procedure. We evaluate the proposed method on a large video dataset consisting of 40 surgical procedures (Bypass40). Results: We present experimental results from several baseline models for both phase and step recognition on the Bypass40 dataset. The proposed MTMS-TCN method outperforms in both phase and step recognition by 1-2% in accuracy, precision and recall, compared to single-task methods. Furthermore, for step recognition, MTMS-TCN achieves a superior performance of 3-6% compared to LSTM based models in accuracy, precision, and recall. Conclusion: In this work, we present a multi-task multi-stage temporal convolutional network for surgical activity recognition, which shows improved results compared to single-task models on the Bypass40 gastric bypass dataset with multi-level annotations. The proposed method shows that the joint modeling of phases and steps is beneficial to improve the overall recognition of each type of activity.