単眼ビデオから深度、オプティカルフロー、カメラポーズ、および固有のパラメーターを学習するための自己監視型フレームワークであるGLNetを提示します。このようなタスクの現実的な地上真実を取得する難しさに対処します。 1)複数の幾何学的制約(エピポーラジオメトリなど)をキャプチャする新しい損失関数と、複数の移動オブジェクト(剛体および非剛体)をサポートする適応測光損失を設計します。2)モデルを拡張して、カメラの本質を予測し、キャリブレーションされていないビデオに適用できるようにします。3)トレーニングとテストにおける自己監視損失の対称性に依存するいくつかのオンライン改良戦略を提案します。特に、モデルパラメーターやさまざまなタスクの出力の最適化、したがって、相互作用を活用します。すべての幾何学的および測光的制約の下でシステム出力を共同で最適化するという考えは、古典的なバンドル調整の密な一般化と見なすことができます。 KITTIおよびCityscapesでの手法の有効性を実証します。複数のタスクで以前の自己監視アプローチよりも優れています。また、YouTube動画での転移学習の一般化を示しています。
We present GLNet, a self-supervised framework for learning depth, optical flow, camera pose and intrinsic parameters from monocular video - addressing the difficulty of acquiring realistic ground-truth for such tasks. We propose three contributions: 1) we design new loss functions that capture multiple geometric constraints (eg. epipolar geometry) as well as an adaptive photometric loss that supports multiple moving objects, rigid and non-rigid, 2) we extend the model such that it predicts camera intrinsics, making it applicable to uncalibrated video, and 3) we propose several online refinement strategies that rely on the symmetry of our self-supervised loss in training and testing, in particular optimizing model parameters and/or the output of different tasks, thus leveraging their mutual interactions. The idea of jointly optimizing the system output, under all geometric and photometric constraints can be viewed as a dense generalization of classical bundle adjustment. We demonstrate the effectiveness of our method on KITTI and Cityscapes, where we outperform previous self-supervised approaches on multiple tasks. We also show good generalization for transfer learning in YouTube videos.