arXiv reaDer
SVAM:自律型水中ロボットによる顕著性に基づく視覚的注意モデリング
SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater Robots
この論文は、自律型水中ロボットが使用するための顕著性誘導視覚注意モデリング(SVAM)への全体的なアプローチを提示します。 SVAM-Netという名前の提案されたモデルは、さまざまなスケールとセマンティクスで深い視覚的特徴を統合し、自然の水中画像で効果的な顕著な物体検出(SOD)を実現します。 SVAM-Netアーキテクチャは、同じエンコーディングレイヤーを共有しながら、ネットワークの2つの別々のブランチ内でボトムアップとトップダウンの学習に共同で対応するように独自の方法で構成されています。これらの学習経路に沿って専用の空間注意モジュール(SAM)を設計し、抽象化の4つの段階でSODの粗いレベルと細かいレベルのセマンティック機能を活用します。ボトムアップブランチは、大まかな、しかし適度に正確な顕著性推定を高速で実行しますが、より深いトップダウンブランチは、顕著なオブジェクトのきめ細かいローカリゼーションを提供する残余リファインメントモジュール(RRM)を組み込んでいます。ベンチマークデータセットでのSVAM-Netの広範なパフォーマンス評価は、水中SODに対するその有効性を明確に示しています。また、さまざまな水中シーンや水域のテスト画像や、目に見えない自然物の画像など、いくつかの海洋試験のデータによって、その一般化のパフォーマンスを検証します。さらに、ロボット展開の計算の実現可能性を分析し、視覚的注意モデリングのいくつかの重要なユースケースでの有用性を示します。
This paper presents a holistic approach to saliency-guided visual attention modeling (SVAM) for use by autonomous underwater robots. Our proposed model, named SVAM-Net, integrates deep visual features at various scales and semantics for effective salient object detection (SOD) in natural underwater images. The SVAM-Net architecture is configured in a unique way to jointly accommodate bottom-up and top-down learning within two separate branches of the network while sharing the same encoding layers. We design dedicated spatial attention modules (SAMs) along these learning pathways to exploit the coarse-level and fine-level semantic features for SOD at four stages of abstractions. The bottom-up branch performs a rough yet reasonably accurate saliency estimation at a fast rate, whereas the deeper top-down branch incorporates a residual refinement module (RRM) that provides fine-grained localization of the salient objects. Extensive performance evaluation of SVAM-Net on benchmark datasets clearly demonstrates its effectiveness for underwater SOD. We also validate its generalization performance by several ocean trials' data that include test images of diverse underwater scenes and waterbodies, and also images with unseen natural objects. Moreover, we analyze its computational feasibility for robotic deployments and demonstrate its utility in several important use cases of visual attention modeling.
updated: Thu Nov 12 2020 08:17:21 GMT+0000 (UTC)
published: Thu Nov 12 2020 08:17:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト