一般的なコンピュータービジョンパイプラインでのローカル検出器と記述子の使用は、視点の変化と外観の変化が極端になるまでうまく機能します。この分野の過去の研究は、通常、この課題に対する2つのアプローチのいずれかに焦点を当ててきました。極端な視点の変化の下での特徴のマッチングにより適した空間への投影の使用と、視点の変化に対して本質的により堅牢な特徴の学習の試みです。この論文では、データ拡張と正投影の視点投影による不変記述子の学習を組み合わせた新しいフレームワークを提示します。回転ホモグラフィに基づくトレーニングデータ拡張を通じて学習した回転ロバストローカル記述子と、バニラ特徴の対応と回転ロバスト特徴によって得られた対応を組み合わせた対応アンサンブル手法を提案します。一連のベンチマークデータセットを使用し、この研究領域に新しい特注データセットを提供することで、ポーズ推定や視覚的な場所認識などの主要なタスクに対する提案されたアプローチの有効性を評価します。当社のシステムは、さまざまなベースラインおよび最先端の技術を上回り、反対側の場所の視点全体でより高いレベルの場所認識精度を実現し、極端な視点の変更の下でも実用的なパフォーマンスレベルを実現します。
The use of local detectors and descriptors in typical computer vision pipelines work well until variations in viewpoint and appearance change become extreme. Past research in this area has typically focused on one of two approaches to this challenge: the use of projections into spaces more suitable for feature matching under extreme viewpoint changes, and attempting to learn features that are inherently more robust to viewpoint change. In this paper, we present a novel framework that combines learning of invariant descriptors through data augmentation and orthographic viewpoint projection. We propose rotation-robust local descriptors, learnt through training data augmentation based on rotation homographies, and a correspondence ensemble technique that combines vanilla feature correspondences with those obtained through rotation-robust features. Using a range of benchmark datasets as well as contributing a new bespoke dataset for this research domain, we evaluate the effectiveness of the proposed approach on key tasks including pose estimation and visual place recognition. Our system outperforms a range of baseline and state-of-the-art techniques, including enabling higher levels of place recognition precision across opposing place viewpoints and achieves practically-useful performance levels even under extreme viewpoint changes.