従来のコンピューター ビジョンに関する最先端の研究は、外科領域でますます活用されています。コンピュータ支援手術で特に焦点を当てているのは、器具の位置特定のためのマーカーベースの追跡システムを、純粋な画像ベースの 6DoF ポーズ推定に置き換えることです。しかし、最先端の技術は、手術ナビゲーションに必要な精度をまだ満たしていません。これに関連して、手術器具の位置特定のための忠実度の高いマーカーレス光学追跡システムを提案します。静的カメラとモバイル カメラで構成されるマルチビュー カメラ セットアップを開発し、専用の同期およびデータ フュージョン メソッドを使用して大規模な RGB-D ビデオ データセットを収集しました。さまざまな最先端のポーズ推定方法がディープラーニング パイプラインに統合され、複数のカメラ構成で評価されました。さらに、さまざまな入力モダリティとカメラ位置のパフォーマンスへの影響、および純粋な合成データでのトレーニングが比較されました。最良のモデルは、外科用ドリルで 1.3 mm および 1.0°、ドライバーで 3.8 mm および 5.2° の平均位置および方向誤差を達成しました。これらの結果は、文献の関連する方法よりも大幅に優れており、臨床グレードの精度に近く、手術器具のマーカーレス追跡が既存のマーカーベースのシステムに代わる実行可能な代替手段になりつつあることを示しています。
State-of-the-art research of traditional computer vision is increasingly leveraged in the surgical domain. A particular focus in computer-assisted surgery is to replace marker-based tracking systems for instrument localization with pure image-based 6DoF pose estimation. However, the state of the art has not yet met the accuracy required for surgical navigation. In this context, we propose a high-fidelity marker-less optical tracking system for surgical instrument localization. We developed a multi-view camera setup consisting of static and mobile cameras and collected a large-scale RGB-D video dataset with dedicated synchronization and data fusions methods. Different state-of-the-art pose estimation methods were integrated into a deep learning pipeline and evaluated on multiple camera configurations. Furthermore, the performance impacts of different input modalities and camera positions, as well as training on purely synthetic data, were compared. The best model achieved an average position and orientation error of 1.3 mm and 1.0° for a surgical drill as well as 3.8 mm and 5.2° for a screwdriver. These results significantly outperform related methods in the literature and are close to clinical-grade accuracy, demonstrating that marker-less tracking of surgical instruments is becoming a feasible alternative to existing marker-based systems.