単眼ビジョンシステムからシーンの3D構造とともにカメラの動きを推定することは、いわゆるシーン剛性の仮定に依存することが多い複雑なタスクです。動的な環境を観察する場合、この仮定に違反し、カメラのエゴモーションとオブジェクトのモーションの間にあいまいさが生じます。この問題を解決するために、単眼ビデオからの3Dオブジェクトモーションフィールド推定のための自己教師あり学習フレームワークを提示します。私たちの貢献は2つあります。まず、DAMと呼ばれるダイナミクスアテンションモジュールを使用して、カメラのエゴモーションとオブジェクトのモーションを明示的に解きほぐすための2段階の投影パイプラインを提案します。具体的には、共有モーションエンコーダーを介してアテンションモジュールによって制御される、第1および第2ワーピングステージでのカメラとオブジェクトのモーションをそれぞれ推定する統合モーションモデルを設計します。次に、CSACと呼ばれる対照的なサンプルコンセンサスによるオブジェクトモーションフィールド推定を提案します。これは、弱いセマンティックプライア(オブジェクト検出器からのバウンディングボックス)と幾何学的制約(各オブジェクトは剛体モーションモデルを尊重します)を利用します。 KITTI、Cityscapes、およびWaymo Open Datasetでの実験は、私たちのアプローチの関連性を示し、私たちの方法が、自己監視単眼深度推定、オブジェクトモーションセグメンテーション、単眼シーンフロー推定のタスクに対して最先端のアルゴリズムよりも優れていることを示しています。と視覚オドメトリ。
Estimating the motion of the camera together with the 3D structure of the scene from a monocular vision system is a complex task that often relies on the so-called scene rigidity assumption. When observing a dynamic environment, this assumption is violated which leads to an ambiguity between the ego-motion of the camera and the motion of the objects. To solve this problem, we present a self-supervised learning framework for 3D object motion field estimation from monocular videos. Our contributions are two-fold. First, we propose a two-stage projection pipeline to explicitly disentangle the camera ego-motion and the object motions with dynamics attention module, called DAM. Specifically, we design an integrated motion model that estimates the motion of the camera and object in the first and second warping stages, respectively, controlled by the attention module through a shared motion encoder. Second, we propose an object motion field estimation through contrastive sample consensus, called CSAC, taking advantage of weak semantic prior (bounding box from an object detector) and geometric constraints (each object respects the rigid body motion model). Experiments on KITTI, Cityscapes, and Waymo Open Dataset demonstrate the relevance of our approach and show that our method outperforms state-of-the-art algorithms for the tasks of self-supervised monocular depth estimation, object motion segmentation, monocular scene flow estimation, and visual odometry.