シーンフローは、3D空間内のポイントの動きを表します。これは、2D画像内のピクセルの動きを表すオプティカルフローに対応します。しかし、実際のシーンでシーンフローのグラウンドトゥルースを取得することは困難であり、最近の研究はトレーニング用の合成データに基づいています。したがって、実世界のデータに基づいて教師なし手法を使用してシーンフローネットワークをトレーニングする方法は、非常に重要です。シーンフローの新しい教師なし学習法を本論文で提案した。これは、トレーニングのためにシーンフローのグラウンドトゥルースなしで単眼カメラによって撮影された2つの連続したフレームの画像を利用する。私たちの方法は、トレーニングデータとテストデータの間のギャップを埋め、トレーニングに利用できるデータの範囲を広げる、実世界のデータを使用したトレーニングシーンフローネットワークという目標を実現します。本論文における教師なし学習は主に2つの部分からなる:(i)深度推定とカメラポーズ推定、および(ii)4つの異なる損失関数に基づくシーンフロー推定。深度推定とカメラポーズ推定は、2つの連続するフレーム間の深度マップとカメラポーズを取得します。これにより、次のシーンフロー推定のための詳細情報が提供されます。その後、深度整合性損失、動的静的整合性損失、面取り損失、およびラプラシアン正則化損失を使用して、シーンフローネットワークの教師なしトレーニングを実行しました。私たちの知る限り、これは単眼カメラからの3Dシーンフローの教師なし学習を実現する最初の論文です。 KITTIでの実験結果は、シーンフローの教師なし学習の方法が、従来の方法である反復最接近点(ICP)および高速グローバル登録(FGR)と比較して優れたパフォーマンスを満たしていることを示しています。ソースコードはhttps://github.com/IRMVLab/3DUnMonoFlowで入手できます。
Scene flow represents the motion of points in the 3D space, which is the counterpart of the optical flow that represents the motion of pixels in the 2D image. However, it is difficult to obtain the ground truth of scene flow in the real scenes, and recent studies are based on synthetic data for training. Therefore, how to train a scene flow network with unsupervised methods based on real-world data shows crucial significance. A novel unsupervised learning method for scene flow is proposed in this paper, which utilizes the images of two consecutive frames taken by monocular camera without the ground truth of scene flow for training. Our method realizes the goal that training scene flow network with real-world data, which bridges the gap between training data and test data and broadens the scope of available data for training. Unsupervised learning of scene flow in this paper mainly consists of two parts: (i) depth estimation and camera pose estimation, and (ii) scene flow estimation based on four different loss functions. Depth estimation and camera pose estimation obtain the depth maps and camera pose between two consecutive frames, which provide further information for the next scene flow estimation. After that, we used depth consistency loss, dynamic-static consistency loss, Chamfer loss, and Laplacian regularization loss to carry out unsupervised training of the scene flow network. To our knowledge, this is the first paper that realizes the unsupervised learning of 3D scene flow from monocular camera. The experiment results on KITTI show that our method for unsupervised learning of scene flow meets great performance compared to traditional methods Iterative Closest Point (ICP) and Fast Global Registration (FGR). The source code is available at: https://github.com/IRMVLab/3DUnMonoFlow.