arXiv reaDer
組み込みシステムでのリアルタイムの単眼人間深度推定とセグメンテーション
Real-Time Monocular Human Depth Estimation and Segmentation on Embedded Systems
移動する歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における重要かつ根本的な問題です。この論文は、単眼カメラを備えたリソースに制約のあるプラットフォーム(バッテリー駆動の空中、マイクロ空中、地上車両を含む)のアプリケーションを目指して、屋内環境での高速かつ正確な人間の深さの推定とセグメンテーションのための新しい、複雑さの低いネットワークアーキテクチャを提案します主要な知覚モジュールであること。エンコーダ-デコーダ構造に従って、提案されたフレームワークは2つのブランチで構成されます。1つは深度予測用で、もう1つはセマンティックセグメンテーション用です。さらに、ネットワーク構造の最適化を採用して、前方推論速度を向上させています。 3つの自己生成データセットでの徹底的な実験により、パイプラインがリアルタイムで実行できることが証明され、同等の性能を維持しながら、最新のフレームワークよりも高いフレームレート(NVIDIA Jetson Nano GPUで毎秒114.6フレーム)を実現しています。正確さ。
Estimating a scene's depth to achieve collision avoidance against moving pedestrians is a crucial and fundamental problem in the robotic field. This paper proposes a novel, low complexity network architecture for fast and accurate human depth estimation and segmentation in indoor environments, aiming to applications for resource-constrained platforms (including battery-powered aerial, micro-aerial, and ground vehicles) with a monocular camera being the primary perception module. Following the encoder-decoder structure, the proposed framework consists of two branches, one for depth prediction and another for semantic segmentation. Moreover, network structure optimization is employed to improve its forward inference speed. Exhaustive experiments on three self-generated datasets prove our pipeline's capability to execute in real-time, achieving higher frame rates than contemporary state-of-the-art frameworks (114.6 frames per second on an NVIDIA Jetson Nano GPU with TensorRT) while maintaining comparable accuracy.
updated: Tue Aug 24 2021 03:26:08 GMT+0000 (UTC)
published: Tue Aug 24 2021 03:26:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト