arXiv reaDer
動的シーンにおける自己教師あり深さポーズ学習のための注意分離および集約ネットワーク
Attentional Separation-and-Aggregation Network for Self-supervised Depth-Pose Learning in Dynamic Scenes
エピポーラ投影からの自己監視を介してラベルのないビデオから深さと自我の動きを学習することで、視覚ベースのロボットの3D知覚と位置特定の堅牢性と精度を向上させることができます。ただし、エゴモーションによって計算された剛体投影は、移動するオブジェクト上のポイントなど、すべてのシーンポイントを表すことができないため、これらの領域で誤ったガイダンスが発生します。この問題に対処するために、注意メカニズムを介してシーンの静的および動的特性を区別および抽出することを学習できる注意分離および集約ネットワーク(ASANet)を提案します。さらに、カメラのエゴモーションとシーンの動的モーションフィールドを推定するために、エンコーダとしてASANetを使用し、その後に2つの個別のデコーダを使用する新しいMotionNetを提案します。次に、動的を意識した学習のために移動するオブジェクトを自動的に検出する自動選択アプローチを紹介します。経験的実験は、私たちの方法がKITTIベンチマークで最先端のパフォーマンスを達成できることを示しています。
Learning depth and ego-motion from unlabeled videos via self-supervision from epipolar projection can improve the robustness and accuracy of the 3D perception and localization of vision-based robots. However, the rigid projection computed by ego-motion cannot represent all scene points, such as points on moving objects, leading to false guidance in these regions. To address this problem, we propose an Attentional Separation-and-Aggregation Network (ASANet), which can learn to distinguish and extract the scene's static and dynamic characteristics via the attention mechanism. We further propose a novel MotionNet with an ASANet as the encoder, followed by two separate decoders, to estimate the camera's ego-motion and the scene's dynamic motion field. Then, we introduce an auto-selecting approach to detect the moving objects for dynamic-aware learning automatically. Empirical experiments demonstrate that our method can achieve the state-of-the-art performance on the KITTI benchmark.
updated: Wed Nov 18 2020 16:07:30 GMT+0000 (UTC)
published: Wed Nov 18 2020 16:07:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト