arXiv reaDer
内視鏡ビデオでカメラの姿勢をロバストに推定する方法を学ぶ
Learning How To Robustly Estimate Camera Pose in Endoscopic Videos
目的: 手術シーンの理解は、将来の内視鏡手術における介入支援システムの技術スタックにおいて重要な役割を果たします。このため、内視鏡の姿勢を追跡することは重要な要素ですが、照明条件、組織の変形、臓器の呼吸運動のために依然として困難です。方法: カメラ姿勢推定の 2 つの幾何学的損失を最小限に抑えるために、奥行きとオプティカル フローを推定するステレオ内視鏡のソリューションを提案します。最も重要なことは、入力画像の内容に応じて寄与のバランスをとる、2 つの学習済み適応ピクセルごとの重みマッピングを導入することです。そのために、深層学習の表現力と新しい幾何学的ベースの最適化アプローチの堅牢性を活用するように、Deep Declarative Network をトレーニングします。公開されている SCARED データセットでアプローチを検証し、新しい生体内データセット、StereoMIS を導入します。これには、通常観察される手術設定のより広い範囲が含まれます。結果: 私たちの方法は、平均的に最先端の方法よりも優れており、さらに重要なことには、組織の変形や呼吸運動が見える困難なシナリオで優れています。提案された重みマッピングは、組織の変形など、画像のあいまいな領域上のピクセルの寄与を減衰させることがわかりました。結論: 我々は、困難な内視鏡手術シーンでカメラの姿勢をロバストに推定するソリューションの有効性を実証します。私たちの貢献は、同時ローカリゼーションとマッピング (SLAM) や 3D 再構成などの関連タスクを改善するために使用できるため、低侵襲手術における手術シーンの理解が進みます。
Purpose: Surgical scene understanding plays a critical role in the technology stack of tomorrow's intervention-assisting systems in endoscopic surgeries. For this, tracking the endoscope pose is a key component, but remains challenging due to illumination conditions, deforming tissues and the breathing motion of organs. Method: We propose a solution for stereo endoscopes that estimates depth and optical flow to minimize two geometric losses for camera pose estimation. Most importantly, we introduce two learned adaptive per-pixel weight mappings that balance contributions according to the input image content. To do so, we train a Deep Declarative Network to take advantage of the expressiveness of deep-learning and the robustness of a novel geometric-based optimization approach. We validate our approach on the publicly available SCARED dataset and introduce a new in-vivo dataset, StereoMIS, which includes a wider spectrum of typically observed surgical settings. Results: Our method outperforms state-of-the-art methods on average and more importantly, in difficult scenarios where tissue deformations and breathing motion are visible. We observed that our proposed weight mappings attenuate the contribution of pixels on ambiguous regions of the images, such as deforming tissues. Conclusion: We demonstrate the effectiveness of our solution to robustly estimate the camera pose in challenging endoscopic surgical scenes. Our contributions can be used to improve related tasks like simultaneous localization and mapping (SLAM) or 3D reconstruction, therefore advancing surgical scene understanding in minimally-invasive surgery.
updated: Mon Apr 17 2023 07:05:01 GMT+0000 (UTC)
published: Mon Apr 17 2023 07:05:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト