Deep Shape-from-Template: Wide-Baseline, Dense and Fast Registration and Deformable Reconstruction from a Single Image
単一の単眼画像で表示される変形可能なオブジェクトのリアルタイム自動登録と3D再構成を解決するための新しいディープニューラルネットワーク(DNN)メソッドであるDeep Shape-from-Template(DeepSfT)を紹介します。DeepSfTは最新の状態を前進させます。 -さまざまな側面のアート。既存のDNNSfTメソッドと比較すると、これは、任意のオブジェクトジオメトリ、トポロジ、および表面表現を処理する最初の完全畳み込みリアルタイムアプローチです。また、実際のデータを使用したグラウンドトゥルースの登録を必要とせず、多数の要素を含む非常に複雑なオブジェクトモデルに適切にスケーリングします。以前の非DNNSfT手法と比較すると、実行時の数値最適化を必要とせず、機能ベースのマッチングを必要とせず、影響を受けない、高密度で幅広いベースラインソリューションです。大幅な変形と視点の変更を伴う単一の画像を処理することができ、オクルージョン、弱いテクスチャ、およびぼかしという主要な課題を適切に処理します。 DeepSfTは、残差エンコーダ-デコーダ構造とリファインブロックに基づいています。これは、オブジェクトモデルのシミュレートされたレンダリングからの教師あり学習と、標準のRGB-Dカメラでキャプチャされた実際のデータを使用した半教師あり自動微調整の新しい組み合わせでエンドツーエンドでトレーニングされます。微調整と実行時に使用されるカメラは異なる可能性があるため、DeepSfTは実際の使用に実用的です。 DeepSfTは、定量的および定性的な評価により、重要なテンプレートに対する最先端のワイドベースラインアプローチを大幅に上回っていることを示しています。
We present Deep Shape-from-Template (DeepSfT), a novel Deep Neural Network (DNN) method for solving real-time automatic registration and 3D reconstruction of a deformable object viewed in a single monocular image.DeepSfT advances the state-of-the-art in various aspects. Compared to existing DNN SfT methods, it is the first fully convolutional real-time approach that handles an arbitrary object geometry, topology and surface representation. It also does not require ground truth registration with real data and scales well to very complex object models with large numbers of elements. Compared to previous non-DNN SfT methods, it does not involve numerical optimization at run-time, and is a dense, wide-baseline solution that does not demand, and does not suffer from, feature-based matching. It is able to process a single image with significant deformation and viewpoint changes, and handles well the core challenges of occlusions, weak texture and blur. DeepSfT is based on residual encoder-decoder structures and refining blocks. It is trained end-to-end with a novel combination of supervised learning from simulated renderings of the object model and semi-supervised automatic fine-tuning using real data captured with a standard RGB-D camera. The cameras used for fine-tuning and run-time can be different, making DeepSfT practical for real-world use. We show that DeepSfT significantly outperforms state-of-the-art wide-baseline approaches for non-trivial templates, with quantitative and qualitative evaluation.
updated: Sun Feb 28 2021 03:12:50 GMT+0000 (UTC)
published: Mon Nov 19 2018 16:39:27 GMT+0000 (UTC)
