ビジョンベースのローカリゼーションは、単一の画像を与えられたカメラのポーズを推測する問題です。この問題の解決策の1つは、既知のポーズの画像のデータセットを学習した後、クエリ画像のポーズを推測するためにディープニューラルネットワークを学習することです。別のより一般的に使用されるアプローチは、クエリ画像が画像のデータベースと比較され、検索された画像の助けを借りてその姿勢が推測される画像検索に依存しています。後者のアプローチでは、同じ場所から撮影された画像は同じランドマークで構成されているため、同様の特徴表現を持つと想定しています。これらの表現は、完全な監視を使用して学習することができ、時刻や天気などのキャプチャ条件のさまざまな変動に対して堅牢です。この作業では、取得プロセスによって提供される画像のGPS座標および時間的近傍に加えて、ローカライズに従来使用されている参照またはクエリデータベース。私たちの方法は、この追加情報に基づいてグラフを構築し、参照画像やクエリ画像の特徴表現を平滑化することで堅牢な検索に使用します。提案された方法は、ベースライン上の2つの大規模データセットのローカライズ精度を大幅に改善できることを示します。
Vision based localization is the problem of inferring the pose of the camera given a single image. One solution to this problem is to learn a deep neural network to infer the pose of a query image after learning on a dataset of images with known poses. Another more commonly used approach rely on image retrieval where the query image is compared against the database of images and its pose is inferred with the help of the retrieved images. The latter approach assumes that images taken from the same places consists of the same landmarks and, thus would have similar feature representations. These representation can be learned using full supervision to be robust to different variations in capture conditions like time of the day and weather. In this work, we introduce a framework to enhance the performance of these retrieval based localization methods by taking into account the additional information including GPS coordinates and temporal neighbourhood of the images provided by the acquisition process in addition to the descriptor similarity of pairs of images in the reference or query database which is used traditionally for localization. Our method constructs a graph based on this additional information and use it for robust retrieval by smoothing the feature representation of reference and/or query images. We show that the proposed method is able to significantly improve the localization accuracy on two large scale datasets over the baselines.