Sequential Adversarial Learning for Self-Supervised Deep Visual Odometry
連続フレームの相関を組み込み、敵対的学習を利用する視覚走行距離計(VO)の自己監視型学習フレームワークを提案します。従来の方法は、ワープされた画像とキャプチャされた画像の間の測光損失を最小限に抑えることにより、単一画像からの深さと画像ペアからの相対的な姿勢を回復する局所構造からの自己監視VO(SfM)問題に取り組みます。単一ビューの深度推定は不適切な問題であり、測光損失は歪んだ画像の歪みアーティファクトを識別できないため、推定された深度はあいまいであり、姿勢は不正確です。従来の方法とは対照的に、フレームワークは、フレーム間の相関のコンパクトな表現を学習します。これは、シーケンシャル情報を組み込むことで更新されます。更新された表現は、深度推定に使用されます。また、VOを自己監視型の画像生成タスクとして扱い、Generative Adversarial Networks(GAN)を活用しています。ジェネレーターは、奥行きとポーズを学習して、ワープされたターゲットイメージを生成します。弁別器は、以前の方法でのピクセル単位の損失の問題を克服する高レベルの構造的知覚で、生成された画像の品質を評価します。 KITTIデータセットとCityscapesデータセットの実験により、このメソッドは、保存され予測されたポーズでより正確な深度を取得し、最先端の自己監視メソッドよりも大幅に優れていることがわかります。
We propose a self-supervised learning framework for visual odometry (VO) that incorporates correlation of consecutive frames and takes advantage of adversarial learning. Previous methods tackle self-supervised VO as a local structure from motion (SfM) problem that recovers depth from single image and relative poses from image pairs by minimizing photometric loss between warped and captured images. As single-view depth estimation is an ill-posed problem, and photometric loss is incapable of discriminating distortion artifacts of warped images, the estimated depth is vague and pose is inaccurate. In contrast to previous methods, our framework learns a compact representation of frame-to-frame correlation, which is updated by incorporating sequential information. The updated representation is used for depth estimation. Besides, we tackle VO as a self-supervised image generation task and take advantage of Generative Adversarial Networks (GAN). The generator learns to estimate depth and pose to generate a warped target image. The discriminator evaluates the quality of generated image with high-level structural perception that overcomes the problem of pixel-wise loss in previous methods. Experiments on KITTI and Cityscapes datasets show that our method obtains more accurate depth with details preserved and predicted pose outperforms state-of-the-art self-supervised methods significantly.
updated: Fri Aug 23 2019 07:53:35 GMT+0000 (UTC)
published: Fri Aug 23 2019 07:53:35 GMT+0000 (UTC)
