arXiv reaDer
TransforMatcher:セマンティック通信のためのマッチツーマッチの注意
TransforMatcher: Match-to-Match Attention for Semantic Correspondence
画像間の対応を確立することは、特に異なる視点やクラス内の変動による大きな外観の変化の下では、依然として困難な作業です。この作業では、視覚領域での変圧器ネットワークの成功に基づいて構築された、TransforMatcherと呼ばれる強力なセマンティック画像マッチング学習者を紹介します。対応のための既存の畳み込みベースまたは注意ベースのスキームとは異なり、TransforMatcherは、正確な一致のローカリゼーションと動的な改良のために、グローバルな一致ごとの注意を実行します。密な相関マップで多数の一致を処理するために、軽量のアテンションアーキテクチャを開発して、グローバルな一致間の相互作用を検討します。また、マルチチャネル相関マップを使用して改良を行い、マルチレベルのスコアを単一のスコアではなく機能として扱い、より豊富なレイヤーごとのセマンティクスを十分に活用することを提案します。実験では、TransforMatcherは、PF-PASCALデータセットの既存のSOTAメソッドと同等のパフォーマンスを発揮しながら、SPair-71kに新しい最先端技術を設定します。
Establishing correspondences between images remains a challenging task, especially under large appearance changes due to different viewpoints or intra-class variations. In this work, we introduce a strong semantic image matching learner, dubbed TransforMatcher, which builds on the success of transformer networks in vision domains. Unlike existing convolution- or attention-based schemes for correspondence, TransforMatcher performs global match-to-match attention for precise match localization and dynamic refinement. To handle a large number of matches in a dense correlation map, we develop a light-weight attention architecture to consider the global match-to-match interactions. We also propose to utilize a multi-channel correlation map for refinement, treating the multi-level scores as features instead of a single score to fully exploit the richer layer-wise semantics. In experiments, TransforMatcher sets a new state of the art on SPair-71k while performing on par with existing SOTA methods on the PF-PASCAL dataset.
updated: Mon May 23 2022 21:02:01 GMT+0000 (UTC)
published: Mon May 23 2022 21:02:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト