arXiv reaDer
内視鏡検査における自己監視単眼深度と自我運動推定:救助への外観の流れ
Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue
最近、自動運転学習技術が単眼ビデオから深度と自我運動を計算するために適用され、自動運転シナリオで驚くべきパフォーマンスを達成しています。奥行きと自我運動の自己教師あり学習の広く採用されている仮定の1つは、画像の明るさが近くのフレーム内で一定のままであるということです。残念ながら、内視鏡シーンは、照明の変動、非ランバート反射、およびデータ収集中の相互反射によって引き起こされる深刻な明るさの変動があり、これらの明るさの変動は必然的に深度と自我運動の推定精度を低下させるため、この仮定を満たしていません。この作品では、明るさの不一致の問題に対処するために、外観フローと呼ばれる新しい概念を紹介します。外観の流れは、明るさのパターンの変化を考慮に入れて、一般化された動的な画像の制約を開発することを可能にします。さらに、構造モジュール、モーションモジュール、外観モジュール、通信モジュールで構成される内視鏡シーンで単眼深度と自我運動を同時に推定する統合自己監視フレームワークを構築し、外観を正確に再構築して画像を調整します。輝度。 SCAREDデータセットとEndoSLAMデータセットで広範な実験が行われ、提案された統合フレームワークは、他の自己監視型アプローチを大幅に上回っています。さまざまな患者やカメラでフレームワークの一般化能力を検証するために、SCAREDでモデルをトレーニングしますが、微調整なしでSERV-CTおよびHamlynデータセットでテストします。優れた結果により、その強力な一般化能力が明らかになります。コードはhttps://github.com/ShuweiShao/AF-SfMLearnerで入手できます。
Recently, self-supervised learning technology has been applied to calculate depth and ego-motion from monocular videos, achieving remarkable performance in autonomous driving scenarios. One widely adopted assumption of depth and ego-motion self-supervised learning is that the image brightness remains constant within nearby frames. Unfortunately, the endoscopic scene does not meet this assumption because there are severe brightness fluctuations induced by illumination variations, non-Lambertian reflections and interreflections during data collection, and these brightness fluctuations inevitably deteriorate the depth and ego-motion estimation accuracy. In this work, we introduce a novel concept referred to as appearance flow to address the brightness inconsistency problem. The appearance flow takes into consideration any variations in the brightness pattern and enables us to develop a generalized dynamic image constraint. Furthermore, we build a unified self-supervised framework to estimate monocular depth and ego-motion simultaneously in endoscopic scenes, which comprises a structure module, a motion module, an appearance module and a correspondence module, to accurately reconstruct the appearance and calibrate the image brightness. Extensive experiments are conducted on the SCARED dataset and EndoSLAM dataset, and the proposed unified framework exceeds other self-supervised approaches by a large margin. To validate our framework's generalization ability on different patients and cameras, we train our model on SCARED but test it on the SERV-CT and Hamlyn datasets without any fine-tuning, and the superior results reveal its strong generalization ability. Code will be available at: https://github.com/ShuweiShao/AF-SfMLearner.
updated: Wed Dec 15 2021 13:51:10 GMT+0000 (UTC)
published: Wed Dec 15 2021 13:51:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト