arXiv reaDer
RAFT-3D:リジッドモーション埋め込みを使用したシーンフロー
RAFT-3D: Scene Flow using Rigid-Motion Embeddings
シーンフローの問題に対処します。ステレオまたはRGB-Dビデオフレームのペアが与えられた場合、ピクセル単位の3Dモーションを推定します。シーンフローの新しいディープアーキテクチャであるRAFT-3Dを紹介します。 RAFT-3Dは、オプティカルフロー用に開発されたRAFTモデルに基づいていますが、2Dモーションではなくピクセル単位のSE3モーションの高密度フィールドを繰り返し更新します。 RAFT-3Dの重要な革新は、リジッドモーション埋め込みです。これは、ピクセルをリジッドオブジェクトにソフトにグループ化したものです。リジッドモーション埋め込みに不可欠なのは、埋め込みの幾何学的な一貫性を強化する差別化可能なレイヤーであるDense-SE3です。実験は、RAFT-3Dが最先端のパフォーマンスを達成することを示しています。 FlyingThings3Dでは、2つのビューの評価の下で、公開されている最高の精度(d <0.05)が30.33%から83.71%に向上しました。 KITTIでは、オブジェクトインスタンスの監視を使用していないにもかかわらず、5.77のエラーを達成し、公開されている最良の方法(6.31)を上回っています。
We address the problem of scene flow: given a pair of stereo or RGB-D video frames, estimate pixelwise 3D motion. We introduce RAFT-3D, a new deep architecture for scene flow. RAFT-3D is based on the RAFT model developed for optical flow but iteratively updates a dense field of pixelwise SE3 motion instead of 2D motion. A key innovation of RAFT-3D is rigid-motion embeddings, which represent a soft grouping of pixels into rigid objects. Integral to rigid-motion embeddings is Dense-SE3, a differentiable layer that enforces geometric consistency of the embeddings. Experiments show that RAFT-3D achieves state-of-the-art performance. On FlyingThings3D, under the two-view evaluation, we improved the best published accuracy (d < 0.05) from 30.33% to 83.71%. On KITTI, we achieve an error of 5.77, outperforming the best published method (6.31), despite using no object instance supervision.
updated: Tue Dec 01 2020 18:38:18 GMT+0000 (UTC)
published: Tue Dec 01 2020 18:38:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト