arXiv reaDer
分散型スマートエッジセンサーを使用した3Dセマンティックシーンの知覚
3D Semantic Scene Perception using Distributed Smart Edge Sensors
分散型スマートエッジセンサーのネットワークで構成される3Dセマンティックシーン知覚のためのシステムを提示します。センサーノードは、組み込みのCNN推論アクセラレータとRGB-Dおよびサーマルカメラに基づいています。オブジェクト検出、セマンティックセグメンテーション、および人間の姿勢推定のための効率的なビジョンCNNモデルは、デバイス上でリアルタイムに実行されます。 RGB-D深度推定で拡張された2D人間のキーポイント推定、および意味的に注釈が付けられた点群がセンサーから中央バックエンドにストリーミングされ、複数の視点が同種中心の3Dセマンティックシーンモデルに融合されます。画像の解釈はローカルで計算されるため、セマンティック情報のみがネットワークを介して送信されます。生の画像はセンサーボードに残り、必要な帯域幅を大幅に削減し、監視対象者のプライバシーリスクを軽減します。私たちのラボでは、実際の複数の人物のシーンに挑戦する際に、提案されたシステムを評価します。提案された知覚システムは、意味的に注釈が付けられた3Dジオメトリを含む完全なシーンビューを提供し、リアルタイムで複数の人物の3Dポーズを推定します。
We present a system for 3D semantic scene perception consisting of a network of distributed smart edge sensors. The sensor nodes are based on an embedded CNN inference accelerator and RGB-D and thermal cameras. Efficient vision CNN models for object detection, semantic segmentation, and human pose estimation run on-device in real time. 2D human keypoint estimations, augmented with the RGB-D depth estimate, as well as semantically annotated point clouds are streamed from the sensors to a central backend, where multiple viewpoints are fused into an allocentric 3D semantic scene model. As the image interpretation is computed locally, only semantic information is sent over the network. The raw images remain on the sensor boards, significantly reducing the required bandwidth, and mitigating privacy risks for the observed persons. We evaluate the proposed system in challenging real-world multi-person scenes in our lab. The proposed perception system provides a complete scene view containing semantically annotated 3D geometry and estimates 3D poses of multiple persons in real time.
updated: Tue May 03 2022 12:46:26 GMT+0000 (UTC)
published: Tue May 03 2022 12:46:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト