arXiv reaDer
レーザー:2Dビジュアルローカリゼーションのための潜在的なSpacEレンダリング
LASER: LAtent SpacE Rendering for 2D Visual Localization
2Dフロアマップ用の画像ベースのモンテカルロローカリゼーション(MCL)フレームワークであるLASERを紹介します。 LASERは、潜在空間レンダリングの概念を導入しています。この概念では、フロアマップ上の2Dポーズ仮説が、表示光線の特徴を集約することにより、幾何学的に構造化された潜在空間に直接レンダリングされます。緊密に結合されたレンダリングコードブックスキームにより、表示光線の特徴は、レンダリング時にそれらのジオメトリ(つまり、長さ、入射角)に基づいて動的に決定され、ビューに依存する細粒度の変動性を表現に与えます。私たちのコードブックスキームは、機能エンコーディングをレンダリングから効果的に解きほぐし、潜在空間レンダリングを10KHzを超える速度で実行できるようにします。さらに、メトリック学習を通じて、幾何学的に構造化された潜在空間は、ポーズ仮説と任意の視野を持つ画像のクエリの両方に共通です。その結果、LASERは、パノラマ画像クエリと透視画像クエリの両方について、大規模な屋内ローカリゼーションデータセット(つまり、ZInDとStructured3D)で最先端のパフォーマンスを実現すると同時に、既存の学習ベースの方法を大幅に上回ります。
We present LASER, an image-based Monte Carlo Localization (MCL) framework for 2D floor maps. LASER introduces the concept of latent space rendering, where 2D pose hypotheses on the floor map are directly rendered into a geometrically-structured latent space by aggregating viewing ray features. Through a tightly coupled rendering codebook scheme, the viewing ray features are dynamically determined at rendering-time based on their geometries (i.e. length, incident-angle), endowing our representation with view-dependent fine-grain variability. Our codebook scheme effectively disentangles feature encoding from rendering, allowing the latent space rendering to run at speeds above 10KHz. Moreover, through metric learning, our geometrically-structured latent space is common to both pose hypotheses and query images with arbitrary field of views. As a result, LASER achieves state-of-the-art performance on large-scale indoor localization datasets (i.e. ZInD and Structured3D) for both panorama and perspective image queries, while significantly outperforming existing learning-based methods in speed.
updated: Sun Mar 26 2023 23:17:05 GMT+0000 (UTC)
published: Fri Apr 01 2022 01:39:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト