より複雑で強力なニューラルネットワークモデルの設計により、ローカル機能の検出と記述の最先端が大幅に進歩しました。これらの進歩は、より深いネットワーク、自己監視によるトレーニング方法の改善、または特徴マッチングのためのグラフニューラルネットワークなどの新しいビルディングブロックの導入に起因する可能性があります。ただし、パフォーマンスの向上を追求する中で、軽量記述子を生成する効率的なアーキテクチャは、驚くほどほとんど注目されていません。この論文では、組み込みプラットフォームでの使用を可能にするために、検出と記述に必要なニューラルネットワークの適応を調査します。そのために、リアルタイムアプリケーションで使用するためにネットワーク量子化技術を調査して適応させます。さらに、記述子の量子化における一般的な方法を再検討し、バイナリ記述子の正規化レイヤーの使用を提案し、特徴的な長さ不変のバイナリ記述子の生成を可能にします。効率的なネットワークであるZippyPointは、Apple M1CPUで47.2fpsで動作します。これは、他の学習された検出および記述モデルよりも最大5倍高速であり、リアルタイムで学習された唯一のネットワークになります。 ZippyPointは、視覚的位置特定およびホモグラフィ推定タスクにおいて、他のすべてのバイナリ検出および記述子メソッドよりも一貫して優れています。コードとトレーニング済みモデルは、公開時にリリースされます。
The design of more complex and powerful neural network models has significantly advanced the state-of-the-art in local feature detection and description. These advances can be attributed to deeper networks, improved training methodologies through self-supervision, or the introduction of new building blocks, such as graph neural networks for feature matching. However, in the pursuit of increased performance, efficient architectures that generate lightweight descriptors have received surprisingly little attention. In this paper, we investigate the adaptations neural networks for detection and description require in order to enable their use in embedded platforms. To that end, we investigate and adapt network quantization techniques for use in real-time applications. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive length-invariant binary descriptors. ZippyPoint, our efficient network, runs at 47.2 fps on the Apple M1 CPU. This is up to 5x faster than other learned detection and description models, making it the only real-time learned network. ZippyPoint consistently outperforms all other binary detection and descriptor methods in visual localization and homography estimation tasks. Code and trained models will be released upon publication.