arXiv reaDer
Sample4Geo: クロスビュー ジオローカリゼーションのためのハード ネガティブ サンプリング
Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation
Cross-View Geo-Localisation は、画像の正確な位置を決定するために、追加のモジュール、特定の前処理またはズーム戦略が必要なため、依然として困難なタスクです。ビューが異なればジオメトリも異なるため、極座標変換などの前処理はそれらをマージするのに役立ちます。ただし、これにより画像が歪むため、修正する必要があります。トレーニング バッチにハード ネガティブを追加すると、全体的なパフォーマンスが向上する可能性がありますが、ジオローカライゼーションのデフォルトの損失関数ではそれらを含めることは困難です。この記事では、現在の最先端の結果よりも優れた対称的な InfoNCE 損失を伴う対照的な学習に基づく、単純化された効果的なアーキテクチャを紹介します。私たちのフレームワークは、集約モジュールを使用する必要性を排除し、さらなる前処理ステップを回避し、未知の領域へのモデルの一般化機能を向上させる狭いトレーニング パイプラインで構成されています。ハード ネガの 2 種類のサンプリング戦略を紹介します。 1 つ目は、地理的に隣接する場所を明示的に利用して、適切な出発点を提供します。 2 つ目は、ハード ネガティブ サンプルをマイニングするために、画像埋め込み間の視覚的類似性を活用します。私たちの仕事は、CVUSA、CVACT、University-1652、VIGOR などの一般的なクロスビュー データセットで優れたパフォーマンスを示しています。クロスエリア設定と同じエリア設定の比較は、モデルの優れた一般化機能を示しています。
Cross-View Geo-Localisation is still a challenging task where additional modules, specific pre-processing or zooming strategies are necessary to determine accurate positions of images. Since different views have different geometries, pre-processing like polar transformation helps to merge them. However, this results in distorted images which then have to be rectified. Adding hard negatives to the training batch could improve the overall performance but with the default loss functions in geo-localisation it is difficult to include them. In this article, we present a simplified but effective architecture based on contrastive learning with symmetric InfoNCE loss that outperforms current state-of-the-art results. Our framework consists of a narrow training pipeline that eliminates the need of using aggregation modules, avoids further pre-processing steps and even increases the generalisation capability of the model to unknown regions. We introduce two types of sampling strategies for hard negatives. The first explicitly exploits geographically neighboring locations to provide a good starting point. The second leverages the visual similarity between the image embeddings in order to mine hard negative samples. Our work shows excellent performance on common cross-view datasets like CVUSA, CVACT, University-1652 and VIGOR. A comparison between cross-area and same-area settings demonstrate the good generalisation capability of our model.
updated: Tue Mar 21 2023 13:49:49 GMT+0000 (UTC)
published: Tue Mar 21 2023 13:49:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト