arXiv reaDer
シングルモーダル視覚的場所分類へのマルチモーダル アプローチ
A Multi-modal Approach to Single-modal Visual Place Classification
一人称視点の単眼 RGB 画像からの視覚的な場所の分類は、長期にわたるロボットのナビゲーションにおける基本的な問題です。問題は、RGB 画像分類器が空間や外観の変化に対して脆弱であることが多く、季節、天候、照明の違いなどの領域の変化によって劣化するという事実から生じます。この問題に対処するために、RGB と深度 (D) を組み合わせたマルチセンサー フュージョン アプローチ (LIDAR、レーダー、ステレオなど) が近年人気を博しています。マルチモーダル RGB-D 融合におけるこれらの取り組みに触発され、シングルモーダル RGB 画像分類を再定式化することにより、追加の擬似深度モダリティとして「ドメイン不変」単眼深度推定の最近開発された技術による擬似深度測定の使用を検討します。擬似マルチモーダル RGB-D 分類問題としてのタスク. 具体的には、これら 2 つのモダリティ (RGB と擬似 D) をトレーニング、適切に処理、融合、分類するための実用的で完全に自己教師型のフレームワークについて説明します。パブリック NCLT データセットを使用したドメイン シナリオは、提案されたフレームワークの有効性を検証します。
Visual place classification from a first-person-view monocular RGB image is a fundamental problem in long-term robot navigation. A difficulty arises from the fact that RGB image classifiers are often vulnerable to spatial and appearance changes and degrade due to domain shifts, such as seasonal, weather, and lighting differences. To address this issue, multi-sensor fusion approaches combining RGB and depth (D) (e.g., LIDAR, radar, stereo) have gained popularity in recent years. Inspired by these efforts in multimodal RGB-D fusion, we explore the use of pseudo-depth measurements from recently-developed techniques of ``domain invariant" monocular depth estimation as an additional pseudo depth modality, by reformulating the single-modal RGB image classification task as a pseudo multi-modal RGB-D classification problem. Specifically, a practical, fully self-supervised framework for training, appropriately processing, fusing, and classifying these two modalities, RGB and pseudo-D, is described. Experiments on challenging cross-domain scenarios using public NCLT datasets validate effectiveness of the proposed framework.
updated: Thu May 11 2023 00:54:31 GMT+0000 (UTC)
published: Wed May 10 2023 14:04:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト