この論文では、6-DOFカメラモーションだけでなく6-DOF移動オブジェクトインスタンスも処理するエンドツーエンドの測光損失でトレーニングされる、自己教師あり単眼画像から深度予測フレームワークを提案します。自己監視は、オブジェクト インスタンスを含む深度とシーン モーションを使用して、ビデオ シーケンス全体で画像をワープすることによって実行されます。提案された方法の 1 つの目新しさは、トランスフォーマー ネットワークのマルチヘッド アテンションの使用です。このトランスフォーマー ネットワークは、移動するオブジェクトを時間の経過とともに照合し、それらの相互作用とダイナミクスをモデル化します。これにより、各オブジェクト インスタンスの正確でロバストな姿勢推定が可能になります。ほとんどの画像から深度への予測フレームワークは、動的なオブジェクトに関してパフォーマンスを大幅に低下させる厳格なシーンを想定しています。動的オブジェクトを説明した SOTA 論文はごくわずかです。提案された方法は、標準的なベンチマークでこれらの方法よりも優れていることが示され、これらのベンチマークに対する動的モーションの影響が明らかになります。さらに、提案された画像から深度への予測フレームワークは、SOTA ビデオから深度への予測フレームワークと競合することも示されています。
This paper proposes a self-supervised monocular image-to-depth prediction framework that is trained with an end-to-end photometric loss that handles not only 6-DOF camera motion but also 6-DOF moving object instances. Self-supervision is performed by warping the images across a video sequence using depth and scene motion including object instances. One novelty of the proposed method is the use of the multi-head attention of the transformer network that matches moving objects across time and models their interaction and dynamics. This enables accurate and robust pose estimation for each object instance. Most image-to-depth predication frameworks make the assumption of rigid scenes, which largely degrades their performance with respect to dynamic objects. Only a few SOTA papers have accounted for dynamic objects. The proposed method is shown to outperform these methods on standard benchmarks and the impact of the dynamic motion on these benchmarks is exposed. Furthermore, the proposed image-to-depth prediction framework is also shown to be competitive with SOTA video-to-depth prediction frameworks.