arXiv reaDer
シーンを意識した特徴マッチング
Scene-Aware Feature Matching
現在の特徴マッチング方法は、ポイントレベルのマッチングに焦点を当てており、個々の特徴のより良い表現学習を追求していますが、シーンのさらなる理解が不足しています。このため、視点や照明が大きく変化するシーンなどの難しいシーンを処理する場合、パフォーマンスが大幅に低下します。この問題に取り組むために、我々は SAM という名前の新しいモデルを提案します。これは、シーン認識機能マッチングをガイドするために注意を向けたグループ化を適用します。 SAM はマルチレベルの特徴、つまり画像トークンとグループ トークンをアテンション レイヤーで処理し、提案されたトークン グループ化モジュールを使用して画像トークンをグループ化します。私たちのモデルはグラウンドトゥルースの一致によってのみトレーニングでき、妥当なグループ化結果を生成します。センスを意識したグループ化ガイダンスにより、SAM は従来の特徴マッチング モデルよりも正確で堅牢であるだけでなく、解釈しやすくなります。ホモグラフィー推定、ポーズ推定、画像マッチングなどのさまざまなアプリケーションでの十分な実験により、私たちのモデルが最先端のパフォーマンスを達成していることが実証されています。
Current feature matching methods focus on point-level matching, pursuing better representation learning of individual features, but lacking further understanding of the scene. This results in significant performance degradation when handling challenging scenes such as scenes with large viewpoint and illumination changes. To tackle this problem, we propose a novel model named SAM, which applies attentional grouping to guide Scene-Aware feature Matching. SAM handles multi-level features, i.e., image tokens and group tokens, with attention layers, and groups the image tokens with the proposed token grouping module. Our model can be trained by ground-truth matches only and produce reasonable grouping results. With the sense-aware grouping guidance, SAM is not only more accurate and robust but also more interpretable than conventional feature matching models. Sufficient experiments on various applications, including homography estimation, pose estimation, and image matching, demonstrate that our model achieves state-of-the-art performance.
updated: Sat Aug 19 2023 08:56:35 GMT+0000 (UTC)
published: Sat Aug 19 2023 08:56:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト