arXiv reaDer
現在地と見ているもの: 階層とシーンを使用したクエリベースの世界規模の画像ジオローカリゼーション
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes
写真が撮影された正確な緯度と経度を特定することは、有用で広く適用可能なタスクですが、他のコンピューター ビジョン タスクの進歩が加速しているにもかかわらず、依然として非常に困難です。以前のアプローチのほとんどは、クエリ画像の単一の表現を学習することを選択しており、その後、地理的な粒度のさまざまなレベルで分類されます。これらのアプローチでは、国、州、都市レベルなどのさまざまな階層にコンテキストを与えるさまざまな視覚的合図を活用できません。この目的のために、さまざまな地理的レベル (階層と呼ばれる) と対応する画像内の視覚的シーン情報との関係を、階層的なクロスアテンションを通じて利用する、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入します。これは、地理的階層とシーン タイプごとにクエリを学習することで実現します。さらに、同じ場所のさまざまなシーンが完全に異なる視覚的特徴によって定義されることが多いため、さまざまな環境シーンの個別の表現を学習します。 Im2GPS、Im2GPS3k、YFCC4k、および YFCC26k の 4 つの標準ジオローカライゼーション データセットで最先端のストリート レベルの精度を達成するだけでなく、私たちの方法がさまざまな視覚的階層とシーンのさまざまな表現をどのように学習するかを定性的に示します。以前の方法。これらの以前のテスト データセットは、主にソーシャル メディアから取得した象徴的なランドマークまたは画像で構成されているため、記憶タスクになるか、特定の場所に偏っています。この問題に対処するために、地球全体をカバーする Google ストリートビューから取得した画像と現在の最先端の結果で構成される、より困難なテスト データセット、Google-World-Streets-15k を導入します。私たちのコードは、カメラ対応バージョンで利用できるようになります。
Determining the exact latitude and longitude that a photo was taken is a useful and widely applicable task, yet it remains exceptionally difficult despite the accelerated progress of other computer vision tasks. Most previous approaches have opted to learn a single representation of query images, which are then classified at different levels of geographic granularity. These approaches fail to exploit the different visual cues that give context to different hierarchies, such as the country, state, and city level. To this end, we introduce an end-to-end transformer-based architecture that exploits the relationship between different geographic levels (which we refer to as hierarchies) and the corresponding visual scene information in an image through hierarchical cross-attention. We achieve this by learning a query for each geographic hierarchy and scene type. Furthermore, we learn a separate representation for different environmental scenes, as different scenes in the same location are often defined by completely different visual features. We achieve state of the art street level accuracy on 4 standard geo-localization datasets : Im2GPS, Im2GPS3k, YFCC4k, and YFCC26k, as well as qualitatively demonstrate how our method learns different representations for different visual hierarchies and scenes, which has not been demonstrated in the previous methods. These previous testing datasets mostly consist of iconic landmarks or images taken from social media, which makes them either a memorization task, or biased towards certain places. To address this issue we introduce a much harder testing dataset, Google-World-Streets-15k, comprised of images taken from Google Streetview covering the whole planet and present state of the art results. Our code will be made available in the camera-ready version.
updated: Tue Mar 07 2023 21:47:58 GMT+0000 (UTC)
published: Tue Mar 07 2023 21:47:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト