移動ステレオリグから観察された3Dシーンフローを静止シーン要素と動的オブジェクトの動きに分解する方法を示します。監視されていない学習フレームワークは、カメラの動き、オプティカルフロー、および動くオブジェクトの3D動きについて共同で推論します。連携する3つのネットワークは、ステレオマッチング、カメラモーション、および残留フローを予測します。これは、カメラモーションではなく、オブジェクトモーションによるフローコンポーネントを表します。剛体射影ジオメトリに基づいて、推定されたステレオ深度がカメラモーション推定のガイドに使用され、深度とカメラモーションが残留フロー推定のガイドに使用されます。また、残差フローとシーン深度に基づいて、動的オブジェクトの3Dシーンフローを明示的に推定します。 KITTIデータセットの実験は、このアプローチの有効性を実証し、オプティカルフローおよび視覚走行距離測定タスクにおいて、この方法が他の最先端アルゴリズムよりも優れていることを示しています。
We present a method for decomposing the 3D scene flow observed from a moving stereo rig into stationary scene elements and dynamic object motion. Our unsupervised learning framework jointly reasons about the camera motion, optical flow, and 3D motion of moving objects. Three cooperating networks predict stereo matching, camera motion, and residual flow, which represents the flow component due to object motion and not from camera motion. Based on rigid projective geometry, the estimated stereo depth is used to guide the camera motion estimation, and the depth and camera motion are used to guide the residual flow estimation. We also explicitly estimate the 3D scene flow of dynamic objects based on the residual flow and scene depth. Experiments on the KITTI dataset demonstrate the effectiveness of our approach and show that our method outperforms other state-of-the-art algorithms on the optical flow and visual odometry tasks.