ビデオストリームは、広範囲の手順で低侵襲手術および診断手順をガイドするために利用され、それらを自動的に分析するために多くのコンピューター支援技術が開発されてきました。これらのアプローチは、病変の検出、機器のナビゲーション、解剖学的3D形状モデリングなどの追加情報を外科医に提供できます。ただし、これらのパターンを認識するために必要な画像の特徴は、鏡面ハイライト反射などの不規則な光パターンが存在するため、常に確実に検出されるとは限りません。この論文では、機械学習を使用して内視鏡ビデオから鏡面ハイライトを削除することを目的としています。時間的生成的敵対的ネットワーク(GAN)を使用して、鏡面反射性の下に隠された解剖学的構造を塗りつぶし、空間的に、同じ場所に存在しない隣接するフレームからその外観を推測することを提案します。これは、鏡面ハイライトの自動検出に依存する完全に監視されていない方法で、胃内視鏡検査(Hyper-Kvasir)の生体内データを使用して実現されます。システム評価では、直接比較による従来の方法や、ネットワークの時間的および伝達学習コンポーネントの重要性を示すアブレーション研究による他の機械学習手法が大幅に改善されていることが示されています。さまざまな外科的設定および手順に対するシステムの一般化可能性も、胃内視鏡検査の生体内データおよび生体外ブタデータ(SERV-CT、SCARED)で定性的に評価されました。また、3D再構成とカメラの動きの推定、つまり立体視差、オプティカルフロー、スパースポイントフィーチャマッチングをサポートするコンピュータービジョンタスクでの方法の効果を評価します。これらは定量的および定性的に評価され、結果は、新しい包括的な分析において、これらのタスクに対する鏡面ハイライトの修復のプラスの効果を示しています。
Video streams are utilised to guide minimally-invasive surgery and diagnostic procedures in a wide range of procedures, and many computer assisted techniques have been developed to automatically analyse them. These approaches can provide additional information to the surgeon such as lesion detection, instrument navigation, or anatomy 3D shape modeling. However, the necessary image features to recognise these patterns are not always reliably detected due to the presence of irregular light patterns such as specular highlight reflections. In this paper, we aim at removing specular highlights from endoscopic videos using machine learning. We propose using a temporal generative adversarial network (GAN) to inpaint the hidden anatomy under specularities, inferring its appearance spatially and from neighbouring frames where they are not present in the same location. This is achieved using in-vivo data of gastric endoscopy (Hyper-Kvasir) in a fully unsupervised manner that relies on automatic detection of specular highlights. System evaluations show significant improvements to traditional methods through direct comparison as well as other machine learning techniques through an ablation study that depicts the importance of the network's temporal and transfer learning components. The generalizability of our system to different surgical setups and procedures was also evaluated qualitatively on in-vivo data of gastric endoscopy and ex-vivo porcine data (SERV-CT, SCARED). We also assess the effect of our method in computer vision tasks that underpin 3D reconstruction and camera motion estimation, namely stereo disparity, optical flow, and sparse point feature matching. These are evaluated quantitatively and qualitatively and results show a positive effect of specular highlight inpainting on these tasks in a novel comprehensive analysis.