人工知能(AI)テクノロジーの成熟に伴い、大規模ビジュアルジオローカリゼーション(LSVGL)は、特定のクエリ画像の地理的位置を正確かつ効率的に認識することがタスクである都市コンピューティングにおいてますます重要になっています。実際の単語の場所の出現により多くの実験が直面するLSVGLの主な課題は、さまざまな点で異なる可能性があります。遠近法の偏差は、任意の遠近法のため、トレーニング画像とクエリ画像の間にほぼ必然的に存在します。この状況に対処するために、この論文では、最先端のLSVGLフレームワークで最も一般的に使用されるメトリック学習損失であるトリプレット損失の制限を詳細に分析し、新しいQUInTuplet Loss(QUITLoss)を提案します。すべての潜在的な正のサンプルをプリミティブトリプレット損失に埋め込みます。提案されたアプローチの有効性を検証するために広範な実験が行われ、その結果は、新しい損失がさまざまなLSVGLメソッドを強化できることを示しています。
With the maturity of Artificial Intelligence (AI) technology, Large Scale Visual Geo-Localization (LSVGL) is increasingly important in urban computing, where the task is to accurately and efficiently recognize the geo-location of a given query image. The main challenge of LSVGL faced by many experiments due to the appearance of real-word places may differ in various ways. While perspective deviation almost inevitably exists between training images and query images because of the arbitrary perspective. To cope with this situation, in this paper, we in-depth analyze the limitation of triplet loss which is the most commonly used metric learning loss in state-of-the-art LSVGL framework, and propose a new QUInTuplet Loss (QUITLoss) by embedding all the potential positive samples to the primitive triplet loss. Extensive experiments have been conducted to verify the effectiveness of the proposed approach and the results demonstrate that our new loss can enhance various LSVGL methods.