arXiv reaDer
敵対的自己監視シーンフロー推定
Adversarial Self-Supervised Scene Flow Estimation
この作業は、自己教師ありシーンフロー推定のためのメトリック学習アプローチを提案します。シーンフロー推定は、連続する3Dポイントクラウドの3Dフローベクトルを推定するタスクです。このようなフローベクトルは、アクションの認識や衝突の回避などに役立ちます。シーンフローの教師あり学習を介してニューラルネットワークをトレーニングすることは、各シーンの新しいタイムスタンプごとに3Dポイントごとに手動で注釈を付ける必要があるため、実用的ではありません。そのために、ネットワークが潜在的なメトリックを学習して、フロー推定によって変換されたポイントとターゲットポイントクラウドを区別する、自己監視アプローチを探します。私たちの敵対的なメトリック学習には、2点群のシーケンスでのマルチスケールトリプレット損失とサイクル一貫性損失が含まれます。さらに、自己監視シーンフロー推定のベンチマークであるシーンフローサンドボックスの概要を説明します。ベンチマークは、移動するオブジェクトから実際のシーンまで、複雑さの段階的な順序でフロー推定の個々の側面を研究するように設計された5つのデータセットで構成されています。ベンチマークの実験的評価は、私たちのアプローチが最先端の自己監視シーンフローの結果を取得し、最近のネイバーベースのアプローチを上回っていることを示しています。提案されたベンチマークを使用して、欠点を明らかにし、さまざまなトレーニング設定に関する洞察を引き出します。私たちのセットアップはモーションコヒーレンスをキャプチャし、ローカルジオメトリを保持していることがわかります。一方、オクルージョンへの対処は未解決の課題です。
This work proposes a metric learning approach for self-supervised scene flow estimation. Scene flow estimation is the task of estimating 3D flow vectors for consecutive 3D point clouds. Such flow vectors are fruitful, e.g. for recognizing actions, or avoiding collisions. Training a neural network via supervised learning for scene flow is impractical, as this requires manual annotations for each 3D point at each new timestamp for each scene. To that end, we seek for a self-supervised approach, where a network learns a latent metric to distinguish between points translated by flow estimations and the target point cloud. Our adversarial metric learning includes a multi-scale triplet loss on sequences of two-point clouds as well as a cycle consistency loss. Furthermore, we outline a benchmark for self-supervised scene flow estimation: the Scene Flow Sandbox. The benchmark consists of five datasets designed to study individual aspects of flow estimation in progressive order of complexity, from a moving object to real-world scenes. Experimental evaluation on the benchmark shows that our approach obtains state-of-the-art self-supervised scene flow results, outperforming recent neighbor-based approaches. We use our proposed benchmark to expose shortcomings and draw insights on various training setups. We find that our setup captures motion coherence and preserves local geometries. Dealing with occlusions, on the other hand, is still an open challenge.
updated: Sun Nov 01 2020 16:37:37 GMT+0000 (UTC)
published: Sun Nov 01 2020 16:37:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト