大腸内視鏡検査のスクリーニングは、深度推定、表面再構成、欠損領域の検出など、いくつかの3Dコンピュータービジョン技術の重要な臨床応用です。ただし、実際の結腸内視鏡検査ビデオでのこれらの手法の開発、評価、および比較は、グラウンドトゥルースデータの取得が困難なため、主に定性的なままです。この作業では、結腸内視鏡検査におけるコンピュータービジョン手法のベンチマークのために、高解像度の臨床結腸内視鏡と忠実度の高い結腸モデルで取得した結腸内視鏡検査3Dビデオデータセット(C3VD)を紹介します。既知の3Dモデルのグラウンドトゥルースレンダリングビューで光学ビデオシーケンスを登録するための新しいマルチモーダル2D-3D登録技術を紹介します。さまざまなモダリティは、生成的敵対的ネットワークを使用して光学画像を深度マップに変換し、進化的オプティマイザーを使用してエッジフィーチャを位置合わせすることによって登録されます。この登録方法は、エラーのないグラウンドトゥルースが利用可能なシミュレーション実験で、0.321ミリメートルの平均並進誤差と0.159度の平均回転誤差を達成します。この方法では、ビデオ情報も活用され、単一フレームの登録と比較して、変換の登録精度が55.6%、回転の登録精度が60.4%向上します。 22の短いビデオシーケンスが登録され、グラウンドトゥルース深度、表面法線、オプティカルフロー、オクルージョン、6自由度ポーズ、カバレッジマップ、および3Dモデルのペアで合計10,015フレームが生成されました。データセットには、消化器病専門医が取得した、グラウンドトゥルースポーズと3D表面モデルのペアを使用したスクリーニングビデオも含まれています。データセットと登録ソースコードは、durr.jhu.edu/C3VDで入手できます。
Screening colonoscopy is an important clinical application for several 3D computer vision techniques, including depth estimation, surface reconstruction, and missing region detection. However, the development, evaluation, and comparison of these techniques in real colonoscopy videos remain largely qualitative due to the difficulty of acquiring ground truth data. In this work, we present a Colonoscopy 3D Video Dataset (C3VD) acquired with a high definition clinical colonoscope and high-fidelity colon models for benchmarking computer vision methods in colonoscopy. We introduce a novel multimodal 2D-3D registration technique to register optical video sequences with ground truth rendered views of a known 3D model. The different modalities are registered by transforming optical images to depth maps with a Generative Adversarial Network and aligning edge features with an evolutionary optimizer. This registration method achieves an average translation error of 0.321 millimeters and an average rotation error of 0.159 degrees in simulation experiments where error-free ground truth is available. The method also leverages video information, improving registration accuracy by 55.6% for translation and 60.4% for rotation compared to single frame registration. 22 short video sequences were registered to generate 10,015 total frames with paired ground truth depth, surface normals, optical flow, occlusion, six degree-of-freedom pose, coverage maps, and 3D models. The dataset also includes screening videos acquired by a gastroenterologist with paired ground truth pose and 3D surface models. The dataset and registration source code are available at durr.jhu.edu/C3VD.