この論文では、6自由度のカメラの動きだけでなく6自由度の移動物体のインスタンスも処理するエンドツーエンドの測光損失でトレーニングされた、自己監視型の単眼画像から深度までの予測フレームワークを提案します。自己監視は、オブジェクトインスタンスを含む深度とシーンモーションを使用して、ビデオシーケンス全体で画像をワープすることによって実行されます。提案された方法の1つの目新しさは、時間の経過とともに移動するオブジェクトを照合し、それらの相互作用とダイナミクスをモデル化するトランスネットワークのマルチヘッドアテンションの使用です。これにより、各オブジェクトインスタンスの正確で堅牢なポーズ推定が可能になります。ほとんどの画像から深度への予測フレームワークは、リジッドシーンを想定しているため、動的オブジェクトに関するパフォーマンスが大幅に低下します。動的オブジェクトを説明しているSOTA論文はごくわずかです。提案された方法は、標準的なベンチマークでこれらの方法を大幅に上回っていることを示しており、これらのベンチマークでの動的な動きの影響が明らかになっています。さらに、提案された画像から深度への予測フレームワークは、SOTAビデオから深度への予測フレームワークよりも優れていることも示されています。
This paper proposes a self-supervised monocular image-to-depth prediction framework that is trained with an end-to-end photometric loss that handles not only 6-DOF camera motion but also 6-DOF moving object instances. Self-supervision is performed by warping the images across a video sequence using depth and scene motion including object instances. One novelty of the proposed method is the use of a multi-head attention of the transformer network that matches moving objects across time and models their interaction and dynamics. This enables accurate and robust pose estimation for each object instance. Most image-to-depth predication frameworks make the assumption of rigid scenes, which largely degrades their performance with respect to dynamic objects. Only a few SOTA papers have accounted for dynamic objects. The proposed method is shown to largely outperform these methods on standard benchmarks and the impact of the dynamic motion on these benchmarks is exposed. Furthermore, the proposed image-to-depth prediction framework is also shown to outperform SOTA video-to-depth prediction frameworks.