arXiv reaDer
低コストの単眼UAVを使用した、人口の多い屋内シーンのリアルタイムハイブリッドマッピング
Real-Time Hybrid Mapping of Populated Indoor Scenes using a Low-Cost Monocular UAV
無人航空機(UAV)は、都市型捜索救助から農業調査、自律的な地下鉱山探査まで、近年多くの用途に使用されています。ただし、UAVを狭い屋内スペース、特に人間に近い場所に配備することは、依然として課題です。限られたペイロードが必要な場合の1つの解決策は、マイクロUAVを使用することです。これにより、人体へのリスクが少なくなり、通常、クラッシュ後の交換コストが低くなります。ただし、マイクロUAVは、ステレオペアやLiDARの代わりに単眼カメラなどの限られたセンサースイートしか搭載できないため、人の周りの厳しい環境で操作するために必要な、高密度マッピングやマーカーレスの複数人の3D人間ポーズ推定などのタスクが複雑になります。 。そのようなタスクへの単眼アプローチが存在し、高密度単眼マッピングアプローチがUAVアプリケーションに正常に展開されています。ただし、マーカーベースとマーカーレスの両方のマルチUAV単一人物モーションキャプチャに関する最近の多くの研究にもかかわらず、マーカーレス単一カメラマルチ人物3D人間のポーズ推定は、はるかに初期の技術のままであり、既存の試みを認識していません。空中コンテキストで展開します。この論文では、このように、私たちの知る限り、単一のUAVに搭載された単眼カメラから同時マッピングと複数人の3D人間の姿勢推定を実行する最初のシステムを紹介します。特に、最先端の単眼深度推定と単眼3D人間ポーズ推定アプローチを大まかに結合して、人口の多い屋内シーンのハイブリッドマップをリアルタイムで再構築する方法を示します。大規模なScanNetおよびGTA-IMデータセットでの広範な実験を通じて、コンポーネントレベルの設計の選択を検証します。システムレベルのパフォーマンスを評価するために、人口の多い屋内シーンの新しいオックスフォードハイブリッドマッピングデータセットも構築します。
Unmanned aerial vehicles (UAVs) have been used for many applications in recent years, from urban search and rescue, to agricultural surveying, to autonomous underground mine exploration. However, deploying UAVs in tight, indoor spaces, especially close to humans, remains a challenge. One solution, when limited payload is required, is to use micro-UAVs, which pose less risk to humans and typically cost less to replace after a crash. However, micro-UAVs can only carry a limited sensor suite, e.g. a monocular camera instead of a stereo pair or LiDAR, complicating tasks like dense mapping and markerless multi-person 3D human pose estimation, which are needed to operate in tight environments around people. Monocular approaches to such tasks exist, and dense monocular mapping approaches have been successfully deployed for UAV applications. However, despite many recent works on both marker-based and markerless multi-UAV single-person motion capture, markerless single-camera multi-person 3D human pose estimation remains a much earlier-stage technology, and we are not aware of existing attempts to deploy it in an aerial context. In this paper, we present what is thus, to our knowledge, the first system to perform simultaneous mapping and multi-person 3D human pose estimation from a monocular camera mounted on a single UAV. In particular, we show how to loosely couple state-of-the-art monocular depth estimation and monocular 3D human pose estimation approaches to reconstruct a hybrid map of a populated indoor scene in real time. We validate our component-level design choices via extensive experiments on the large-scale ScanNet and GTA-IM datasets. To evaluate our system-level performance, we also construct a new Oxford Hybrid Mapping dataset of populated indoor scenes.
updated: Fri Mar 04 2022 17:31:26 GMT+0000 (UTC)
published: Fri Mar 04 2022 17:31:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト