arXiv reaDer
マルチスケール注意による視覚的場所認識のための意味論の学習
Learning Semantics for Visual Place Recognition through Multi-Scale Attention
この論文では、視覚的場所認識(VPR)のタスクに取り組みます。ここでの目標は、巨大なジオタグ付きギャラリーに対して特定のクエリ画像の正しいGPS座標を取得することです。最近の研究では、セマンティック情報と外観情報を組み込んだ記述子を作成することが有益であることが示されていますが、現在の最先端の方法では、重要なセマンティックコンテンツのトップダウン定義を選択しています。ここでは、データの視覚的外観とセマンティックコンテンツの両方から堅牢なグローバル埋め込みを学習する最初のVPRアルゴリズムを紹介します。セグメンテーションプロセスは、マルチスケールアテンションモジュールを介した場所の認識によって動的にガイドされます。さまざまなシナリオでの実験により、この新しいアプローチが検証され、最先端の方法に対するパフォーマンスが実証されます。最後に、場所の認識とセグメンテーションの両方のタスクに適した最初の合成世界データセットを提案します。
In this paper we address the task of visual place recognition (VPR), where the goal is to retrieve the correct GPS coordinates of a given query image against a huge geotagged gallery. While recent works have shown that building descriptors incorporating semantic and appearance information is beneficial, current state-of-the-art methods opt for a top down definition of the significant semantic content. Here we present the first VPR algorithm that learns robust global embeddings from both visual appearance and semantic content of the data, with the segmentation process being dynamically guided by the recognition of places through a multi-scale attention module. Experiments on various scenarios validate this new approach and demonstrate its performance against state-of-the-art methods. Finally, we propose the first synthetic-world dataset suited for both place recognition and segmentation tasks.
updated: Mon Jan 24 2022 14:13:12 GMT+0000 (UTC)
published: Mon Jan 24 2022 14:13:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト