arXiv reaDer
E^3Pose: 複数の人間の 3D 姿勢推定のためのエネルギー効率の高いエッジ支援マルチカメラ システム
E^3Pose: Energy-Efficient Edge-assisted Multi-camera System for Multi-human 3D Pose Estimation
複数人の 3D 姿勢推定は、現実世界と仮想世界の間のシームレスな接続を確立する上で重要な役割を果たします。最近の取り組みでは、最初に異なる視点からの複数のカメラ ビューで 2D ポーズ推定を構築し、次にそれらを 3D ポーズに合成する 2 段階のフレームワークを採用しました。ただし、主にオフライン ビデオ データセットで新しいコンピューター ビジョン アルゴリズムを開発することに焦点が当てられており、柔軟に展開されたバッテリー駆動のカメラを備えた現実世界のシステムにおけるエネルギーの制約についてはあまり考慮されていません。この論文では、適応型カメラ選択の重要なアイデアに基づいて、リアルタイムの複数人の 3D 姿勢推定のために、E^3Pose と呼ばれるエネルギー効率の高いエッジ支援型複数カメラ システムを提案します。 E^3Pose は、既存の作品のように 2D ポーズ推定を実行するために常にすべての利用可能なカメラを使用するのではなく、適応的な方法でオクルージョンとエネルギー状態に関するカメラ ビューの品質に応じてカメラのサブセットのみを選択し、それによってエネルギー消費を削減します。 (これはバッテリ寿命の延長につながります)と推定精度の向上につながります。この目標を達成するために、E^3Pose はアテンション ベースの LSTM を組み込み、各カメラ ビューのオクルージョン情報を予測し、カメラを選択してシーンの画像を処理する前にカメラ選択をガイドし、Lyapunov 最適化に基づくカメラ選択アルゴリズムを実行します。長期的な適応選択決定を行うためのフレームワーク。 5 カメラのテストベッドで E^3Pose のプロトタイプを構築し、その実現可能性を実証し、そのパフォーマンスを評価します。私たちの結果は、最先端の方法に匹敵する高い 3D ポーズ推定精度を維持しながら、大幅な省エネ (最大 31.21%) を達成できることを示しています。
Multi-human 3D pose estimation plays a key role in establishing a seamless connection between the real world and the virtual world. Recent efforts adopted a two-stage framework that first builds 2D pose estimations in multiple camera views from different perspectives and then synthesizes them into 3D poses. However, the focus has largely been on developing new computer vision algorithms on the offline video datasets without much consideration on the energy constraints in real-world systems with flexibly-deployed and battery-powered cameras. In this paper, we propose an energy-efficient edge-assisted multiple-camera system, dubbed E^3Pose, for real-time multi-human 3D pose estimation, based on the key idea of adaptive camera selection. Instead of always employing all available cameras to perform 2D pose estimations as in the existing works, E^3Pose selects only a subset of cameras depending on their camera view qualities in terms of occlusion and energy states in an adaptive manner, thereby reducing the energy consumption (which translates to extended battery lifetime) and improving the estimation accuracy. To achieve this goal, E^3Pose incorporates an attention-based LSTM to predict the occlusion information of each camera view and guide camera selection before cameras are selected to process the images of a scene, and runs a camera selection algorithm based on the Lyapunov optimization framework to make long-term adaptive selection decisions. We build a prototype of E^3Pose on a 5-camera testbed, demonstrate its feasibility and evaluate its performance. Our results show that a significant energy saving (up to 31.21%) can be achieved while maintaining a high 3D pose estimation accuracy comparable to state-of-the-art methods.
updated: Sat Jan 21 2023 21:53:33 GMT+0000 (UTC)
published: Sat Jan 21 2023 21:53:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト