arXiv reaDer
ReDFeat:マルチモーダル特徴学習のための再結合検出と記述
ReDFeat: Recoupling Detection and Description for Multimodal Feature Learning
検出と記述を組み合わせた深層学習ベースの局所特徴抽出アルゴリズムは、可視画像のマッチングにおいて大きな進歩を遂げました。ただし、このようなフレームワークのエンドツーエンドのトレーニングは、検出の強力な監視が不足していること、および検出と説明が不適切に結合されていることにより、不安定であることがよく知られています。この問題は、ほとんどの方法が事前トレーニングに大きく依存しているクロスモーダルシナリオで拡大されます。この論文では、マルチモーダル特徴学習の検出と記述の独立した制約を相互重み付け戦略と再結合します。この戦略では、ロバストな特徴の検出された確率がピークに達し、繰り返され、検出スコアの高い特徴が最適化中に強調されます。以前の作品とは異なり、これらの重みはバックプロパゲーションから切り離されているため、不明瞭な特徴の検出された確率が直接抑制されず、トレーニングがより安定します。さらに、過酷な検出条件を満たすために、大きな受容野を持ち、学習可能な非最大抑制層を備えた検出器であるスーパー検出器を提案します。最後に、特徴マッチングおよび画像レジストレーションタスクでの特徴のパフォーマンスを評価するために、交差可視、赤外線、近赤外線、および合成開口レーダーの画像ペアを含むベンチマークを構築します。広範な実験により、ReDFeatという名前の、反跳された検出と説明でトレーニングされた機能が、ベンチマークの以前の最先端技術を上回り、モデルを最初から簡単にトレーニングできることが実証されています。
Deep-learning-based local feature extraction algorithms that combine detection and description have made significant progress in visible image matching. However, the end-to-end training of such frameworks is notoriously unstable due to the lack of strong supervision of detection and the inappropriate coupling between detection and description. The problem is magnified in cross-modal scenarios, in which most methods heavily rely on the pre-training. In this paper, we recouple independent constraints of detection and description of multimodal feature learning with a mutual weighting strategy, in which the detected probabilities of robust features are forced to peak and repeat, while features with high detection scores are emphasized during optimization. Different from previous works, those weights are detached from back propagation so that the detected probability of indistinct features would not be directly suppressed and the training would be more stable. Moreover, we propose the Super Detector, a detector that possesses a large receptive field and is equipped with learnable non-maximum suppression layers, to fulfill the harsh terms of detection. Finally, we build a benchmark that contains cross visible, infrared, near-infrared and synthetic aperture radar image pairs for evaluating the performance of features in feature matching and image registration tasks. Extensive experiments demonstrate that features trained with the recoulped detection and description, named ReDFeat, surpass previous state-of-the-arts in the benchmark, while the model can be readily trained from scratch.
updated: Mon May 16 2022 04:24:22 GMT+0000 (UTC)
published: Mon May 16 2022 04:24:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト