arXiv reaDer
ホリスティックな手術シーンの理解に向けて
Towards Holistic Surgical Scene Understanding
外科的介入を研究するためのほとんどのベンチマークは、さまざまなタスク間の本質的な補完性を活用するのではなく、特定の課題に焦点を当てています。この作業では、ホリスティックな手術シーンの理解に向けた新しい実験的フレームワークを提示します。まず、Phase、Step、Instrument、および Atomic Visual Action 認識 (PSI-AVA) データセットを紹介します。 PSI-AVA には、ロボット支援による前立腺全摘除術のビデオで、長期的 (フェーズおよびステップ認識) および短期的推論 (機器検出および新しい原子アクション認識) の両方の注釈が含まれています。次に、手術シーンを理解するための強力なベースラインとして、アクション、フェーズ、インストゥルメント、およびステップ認識用トランスフォーマー (TAPIR) を提示します。 TAPIR は、機器検出タスクで学習した表現を利用して分類能力を向上させるため、データセットのマルチレベル アノテーションを活用します。 PSI-AVA と他の公的に利用可能なデータベースの両方での実験結果は、全体的な手術シーンの理解に関する将来の研究を促進するためのフレームワークの妥当性を示しています。
Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
updated: Fri Jan 26 2024 04:54:55 GMT+0000 (UTC)
published: Thu Dec 08 2022 22:15:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト