arXiv reaDer
学習するかしないか:必須行列からの視覚的ローカリゼーション
To Learn or Not to Learn: Visual Localization from Essential Matrices
 視覚的ローカリゼーションは、シーン内のカメラの推定の問題であり、自動運転車や複合現実感などのコンピュータービジョンアプリケーションの重要なコンポーネントです。正確な視覚的ローカリゼーションのための最先端のアプローチは、シーン固有の表現を使用するため、新しいシーンにテクニックを適用するときにこれらのモデルを構築するオーバーヘッドが生じます。最近、相対的な姿勢推定に基づく深層学習ベースのアプローチが提案されており、新しいシーンに簡単に適応できる見込みがあります。ただし、このようなアプローチは、現在、最先端のアプローチよりも大幅に精度が低いことが示されています。このホワイトペーパーでは、この動作の分析に興味を持っています。この目的のために、相対的なポーズから視覚的なローカライズのための新しいフレームワークを提案します。このフレームワーク内で従来の機能ベースのアプローチを使用して、最先端のパフォーマンスを示します。古典的なアプローチをさまざまなレベルで学習した代替物に置き換えて、次に、深い学習アプローチがうまく機能しない理由を特定します。分析に基づいて、将来の作業のための推奨事項を作成します。
Visual localization is the problem of estimating a camera within a scene and a key component in computer vision applications such as self-driving cars and Mixed Reality. State-of-the-art approaches for accurate visual localization use scene-specific representations, resulting in the overhead of constructing these models when applying the techniques to new scenes. Recently, deep learning-based approaches based on relative pose estimation have been proposed, carrying the promise of easily adapting to new scenes. However, it has been shown such approaches are currently significantly less accurate than state-of-the-art approaches. In this paper, we are interested in analyzing this behavior. To this end, we propose a novel framework for visual localization from relative poses. Using a classical feature-based approach within this framework, we show state-of-the-art performance. Replacing the classical approach with learned alternatives at various levels, we then identify the reasons for why deep learned approaches do not perform well. Based on our analysis, we make recommendations for future work.
updated: Mon Mar 09 2020 13:14:40 GMT+0000 (UTC)
published: Sun Aug 04 2019 08:23:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト