深さの推定は、ロボット手術や腹腔鏡イメージング システムにおける画像誘導介入にとって重要なステップです。腹腔鏡画像データではピクセルごとの深さのグラウンドトゥルースを取得することが難しいため、教師付き深度推定を外科用途に適用できることはほとんどありません。代わりに、同期されたステレオ画像ペアのみを使用して深度推定器をトレーニングする自己教師あり手法が導入されました。しかし、最近の研究では 2D の左右の一貫性に焦点を当てており、現実世界の座標における物体に固有の貴重な 3D 情報が無視されています。これは、左右の 3D 幾何学的構造の一貫性が十分に活用されていないことを意味します。この制限を克服するために、単眼推論を維持しながらステレオペアに隠された 3D 幾何学的構造情報を活用する自己監視型深度推定器 M3Depth を紹介します。この方法はまた、マスキングを介してステレオ画像の少なくとも 1 つで見えない境界領域の影響を除去し、重なり合う領域における左右の画像間の対応を強化します。集中的な実験では、私たちの方法が公開データセットと新しく取得したデータセットの両方で以前の自己教師ありアプローチよりも大幅に優れていることが示されており、さまざまなサンプルと腹腔鏡にわたって良好な一般化が行われていることを示しています。コードとデータは https://github.com/br0202/M3Depth で入手できます。
Depth estimation is a crucial step for image-guided intervention in robotic surgery and laparoscopic imaging system. Since per-pixel depth ground truth is difficult to acquire for laparoscopic image data, it is rarely possible to apply supervised depth estimation to surgical applications. As an alternative, self-supervised methods have been introduced to train depth estimators using only synchronized stereo image pairs. However, most recent work focused on the left-right consistency in 2D and ignored valuable inherent 3D information on the object in real world coordinates, meaning that the left-right 3D geometric structural consistency is not fully utilized. To overcome this limitation, we present M3Depth, a self-supervised depth estimator to leverage 3D geometric structural information hidden in stereo pairs while keeping monocular inference. The method also removes the influence of border regions unseen in at least one of the stereo images via masking, to enhance the correspondences between left and right images in overlapping areas. Intensive experiments show that our method outperforms previous self-supervised approaches on both a public dataset and a newly acquired dataset by a large margin, indicating a good generalization across different samples and laparoscopes. Code and data are available at https://github.com/br0202/M3Depth.