arXiv reaDer
EffiScene:オプティカルフロー、深度、カメラポーズ、モーションセグメンテーションの教師なし共同学習のための効率的なピクセルごとの剛性推定
EffiScene: Efficient Per-Pixel Rigidity Inference for Unsupervised Joint Learning of Optical Flow, Depth, Camera Pose and Motion Segmentation
このホワイトペーパーでは、オプティカルフローF、ステレオ深度D、カメラポーズP、モーションセグメンテーションSの4つの低レベルビジョンサブタスクを共同で学習することにより、教師なしシーンフロー推定の問題に対処します。重要な洞察は、シーンの剛性が共有することです。オブジェクトの動きとシーンの深さを備えた同じ固有の幾何学的構造。したがって、Sからの剛性は、F、D、およびPを結合して、よりロバストな推定を実現することによって推測できます。この目的のために、独立した補助構造を備えた既存のパイプラインを超えて、効率的な関節剛性学習を備えたEffiSceneという名前の新しいシーンフローフレームワークを提案します。 EffiSceneでは、最初に粗いレベルでオプティカルフローと深度を推定し、次にPerspective-n-Pointsメソッドによってカメラのポーズを計算します。局所的な剛性を共同で学習するために、次の3つの主要コンポーネントを備えた新しいRigidity From Motion(RfM)レイヤーを設計します。 (ii)境界学習; (iii)外れ値の除外。最終出力は、RfMからのリジッドマップM_Rに基づいてより細かいレベルで融合されます。 EffiSceneを効率的にトレーニングするために、2つの新しい損失L_bndとL_uncは、些細な解決策を防ぎ、流れの境界の不連続性を正規化するように設計されています。シーンフローベンチマークKITTIに関する広範な実験は、私たちの方法が効果的であり、すべてのサブタスク、つまりオプティカルフロー(5.19→4.20)、深度推定(3.78→3.46)、視覚オドメトリに対する最先端のアプローチを大幅に改善することを示しています。 (0.012→0.011)およびモーションセグメンテーション(0.57→0.62)。
This paper addresses the challenging unsupervised scene flow estimation problem by jointly learning four low-level vision sub-tasks: optical flow F, stereo-depth D, camera pose P and motion segmentation S. Our key insight is that the rigidity of the scene shares the same inherent geometrical structure with object movements and scene depth. Hence, rigidity from S can be inferred by jointly coupling F, D and P to achieve more robust estimation. To this end, we propose a novel scene flow framework named EffiScene with efficient joint rigidity learning, going beyond the existing pipeline with independent auxiliary structures. In EffiScene, we first estimate optical flow and depth at the coarse level and then compute camera pose by Perspective-n-Points method. To jointly learn local rigidity, we design a novel Rigidity From Motion (RfM) layer with three principal components: (i) correlation extraction; (ii) boundary learning; and (iii) outlier exclusion. Final outputs are fused based on the rigid map M_R from RfM at finer levels. To efficiently train EffiScene, two new losses L_bnd and L_unc are designed to prevent trivial solutions and to regularize the flow boundary discontinuity. Extensive experiments on scene flow benchmark KITTI show that our method is effective and significantly improves the state-of-the-art approaches for all sub-tasks, i.e. optical flow (5.19 →4.20), depth estimation (3.78 →3.46), visual odometry (0.012 →0.011) and motion segmentation (0.57 →0.62).
updated: Sat May 15 2021 03:45:42 GMT+0000 (UTC)
published: Mon Nov 16 2020 23:28:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト