画像全体で局所的な特徴を一致させることを学習するディープ ニューラル ネットワークである LightGlue を紹介します。私たちは、最先端のスパース マッチングである SuperGlue の複数の設計上の決定を再検討し、シンプルだが効果的な改善を導き出しました。累積的に、メモリと計算の両方の点で LightGlue がより効率的になり、より正確になり、トレーニングがはるかに簡単になります。重要な特性の 1 つは、LightGlue が問題の難易度に適応できることです。たとえば、視覚的な重複が大きかったり、外観の変化が限られていたりするため、直感的に一致させるのが簡単な画像ペアでは、推論がはるかに高速になります。これにより、3D 再構築などの遅延に敏感なアプリケーションにディープ マッチャーを導入するための素晴らしい展望が開かれます。コードとトレーニングされたモデルは、https://github.com/cvg/LightGlue で公開されています。
We introduce LightGlue, a deep neural network that learns to match local features across images. We revisit multiple design decisions of SuperGlue, the state of the art in sparse matching, and derive simple but effective improvements. Cumulatively, they make LightGlue more efficient - in terms of both memory and computation, more accurate, and much easier to train. One key property is that LightGlue is adaptive to the difficulty of the problem: the inference is much faster on image pairs that are intuitively easy to match, for example because of a larger visual overlap or limited appearance change. This opens up exciting prospects for deploying deep matchers in latency-sensitive applications like 3D reconstruction. The code and trained models are publicly available at https://github.com/cvg/LightGlue.