arXiv reaDer
視覚的場所認識のための意味強化注意学習
Semantic Reinforced Attention Learning for Visual Place Recognition
大規模な視覚的場所認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難です。機能の埋め込みでタスクに関連する視覚的な手がかりを強調するために、既存の注意メカニズムは、人工的なルールに基づいているか、完全なデータ駆動型の方法でトレーニングされています。 2つのタイプ間のギャップを埋めるために、新しいセマンティック強化注意学習ネットワーク(SRALNet)を提案します。このネットワークでは、推測された注意がセマンティック事前確率とデータ駆動型微調整の両方から恩恵を受けることができます。貢献は2つあります。 (1)誤解を招く局所特徴を抑制するために、階層的特徴分布に基づいて解釈可能な局所重み付け方式が提案されます。 (2)局所的重み付けスキームの解釈可能性を活用することにより、意味的制約付き初期化が提案され、局所的注意が意味的事前分布によって強化されるようになります。実験は、私たちの方法が都市規模のVPRベンチマークデータセットで最先端の技術よりも優れていることを示しています。
Large-scale visual place recognition (VPR) is inherently challenging because not all visual cues in the image are beneficial to the task. In order to highlight the task-relevant visual cues in the feature embedding, the existing attention mechanisms are either based on artificial rules or trained in a thorough data-driven manner. To fill the gap between the two types, we propose a novel Semantic Reinforced Attention Learning Network (SRALNet), in which the inferred attention can benefit from both semantic priors and data-driven fine-tuning. The contribution lies in two-folds. (1) To suppress misleading local features, an interpretable local weighting scheme is proposed based on hierarchical feature distribution. (2) By exploiting the interpretability of the local weighting scheme, a semantic constrained initialization is proposed so that the local attention can be reinforced by semantic priors. Experiments demonstrate that our method outperforms state-of-the-art techniques on city-scale VPR benchmark datasets.
updated: Thu Aug 19 2021 02:14:36 GMT+0000 (UTC)
published: Thu Aug 19 2021 02:14:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト