異なる視点を持つ画像間のローカル対応を見つけるには、幾何学的変換に対してロバストなローカル記述子が必要です。変換不変性のアプローチは、画像の変換されたバージョンから抽出された特徴をプールすることにより、変換を統合することです。ただし、フィーチャプーリングは、結果の記述子の特徴を犠牲にする可能性があります。この論文では、グループ不変特徴変換(GIFT)という名前の新しい視覚記述子を紹介します。重要な考え方は、画像の変換されたバージョンから抽出された特徴は、変換のグループで定義された関数として表示できるということです。フィーチャプーリングの代わりに、グループコンボリューションを使用して、グループ上の抽出されたフィーチャの基礎となる構造を活用し、変換のグループに対して差別的であり、不変である記述子を作成します。広範な実験により、GIFTはいくつかのベンチマークデータセットで最先端の方法よりも優れており、相対的な姿勢推定のパフォーマンスを実際に向上させることが示されています。
Finding local correspondences between images with different viewpoints requires local descriptors that are robust against geometric transformations. An approach for transformation invariance is to integrate out the transformations by pooling the features extracted from transformed versions of an image. However, the feature pooling may sacrifice the distinctiveness of the resulting descriptors. In this paper, we introduce a novel visual descriptor named Group Invariant Feature Transform (GIFT), which is both discriminative and robust to geometric transformations. The key idea is that the features extracted from the transformed versions of an image can be viewed as a function defined on the group of the transformations. Instead of feature pooling, we use group convolutions to exploit underlying structures of the extracted features on the group, resulting in descriptors that are both discriminative and provably invariant to the group of transformations. Extensive experiments show that GIFT outperforms state-of-the-art methods on several benchmark datasets and practically improves the performance of relative pose estimation.