arXiv reaDer
FE-Fusion-VPR: フレームとイベントの融合による視覚的場所認識のための注意ベースのマルチスケール ネットワーク アーキテクチャ
FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for Visual Place Recognition by Fusing Frames and Events
通常は標準的なカメラを使用する従来の視覚的場所認識 (VPR) は、まぶしさや高速な動きのために簡単に失敗します。対照的に、イベント カメラには、上記の問題に対処できる低遅延、高時間分解能、および高ダイナミック レンジという利点があります。それにもかかわらず、イベント カメラはテクスチャの弱いシーンや動きのないシーンでは失敗する傾向がありますが、標準のカメラはこの場合でも外観情報を提供できます。したがって、標準カメラとイベント カメラの補完性を活用することで、VPR アルゴリズムのパフォーマンスを効果的に向上させることができます。この論文では、フレームとイベントを融合することにより、VPR のための注意ベースのマルチスケール ネットワーク アーキテクチャである FE-Fusion-VPR を提案します。まず、強度フレームとイベント ボリュームが 2 ストリームの特徴抽出ネットワークに供給され、浅い特徴融合が行われます。次に、マルチスケール フュージョン ネットワークを介して 3 スケールの特徴が取得され、VLAD レイヤーを使用して 3 つのサブ記述子に集約されます。最後に、各サブ記述子の重みは、記述子再重み付けネットワークを通じて学習され、最終的な洗練された記述子が取得されます。実験結果は、Brisbane-Event-VPR および DDD20 データセットで、FE-Fusion-VPR の Recall@1 が Event-VPR および Ensemble-EventVPR よりも 29.26% および 33.59% 高く、7.00% および 14.15% 高いことを示しています。 MultiRes-NetVLAD および NetVLAD よりも。私たちの知る限り、これは、既存のイベントベースおよびフレームベースの SOTA メソッドを超えて、フレームとイベントを直接 VPR に融合する最初のエンドツーエンド ネットワークです。
Traditional visual place recognition (VPR), usually using standard cameras, is easy to fail due to glare or high-speed motion. By contrast, event cameras have the advantages of low latency, high temporal resolution, and high dynamic range, which can deal with the above issues. Nevertheless, event cameras are prone to failure in weakly textured or motionless scenes, while standard cameras can still provide appearance information in this case. Thus, exploiting the complementarity of standard cameras and event cameras can effectively improve the performance of VPR algorithms. In the paper, we propose FE-Fusion-VPR, an attention-based multi-scale network architecture for VPR by fusing frames and events. First, the intensity frame and event volume are fed into the two-stream feature extraction network for shallow feature fusion. Next, the three-scale features are obtained through the multi-scale fusion network and aggregated into three sub-descriptors using the VLAD layer. Finally, the weight of each sub-descriptor is learned through the descriptor re-weighting network to obtain the final refined descriptor. Experimental results show that on the Brisbane-Event-VPR and DDD20 datasets, the Recall@1 of our FE-Fusion-VPR is 29.26% and 33.59% higher than Event-VPR and Ensemble-EventVPR, and is 7.00% and 14.15% higher than MultiRes-NetVLAD and NetVLAD. To our knowledge, this is the first end-to-end network that goes beyond the existing event-based and frame-based SOTA methods to fuse frame and events directly for VPR.
updated: Wed Nov 23 2022 03:07:17 GMT+0000 (UTC)
published: Tue Nov 22 2022 12:55:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト