arXiv reaDer
MovePose: モバイルおよびエッジ デバイス上の高性能人間姿勢推定アルゴリズム
MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices
CPU ベースのモバイル デバイスでのリアルタイムの身体姿勢推定のために特別に設計された、最適化された軽量畳み込みニューラル ネットワークである MovePose を紹介します。現在のソリューションは人間の姿勢推定に満足のいく精度と速度を提供していませんが、MovePose はこのギャップに対処します。リアルタイムのパフォーマンスを維持しながら、モバイル デバイスの人間の姿勢推定の精度を向上させることを目的としています。このネットワークは、1 秒あたり 11 フレームを超える速度で各個人に対して 17 のキーポイントを生成するため、フィットネス トラッキング、手話通訳、高度なモバイル人間の姿勢推定などのリアルタイム アプリケーションに適しています。当社の MovePose アルゴリズムは、COCO cocodata 検証データセットで平均平均精度 (mAP) スコア 67.7 を達成しました。 MovePose アルゴリズムは、Intel i9-10920x CPU で実行した場合、69+ フレーム/秒 (fps) のパフォーマンスで効率性を示しました。さらに、NVIDIA RTX3090 GPU で 452+ fps のパフォーマンスの向上も実証しました。 Snapdragon 8 + 4G プロセッサを搭載した Android スマートフォンでは、fps は 11 以上に達しました。精度を高めるために、デコンボリューション、ラージ カーネル コンボリューション、座標分類方法という 3 つの技術を組み込みました。基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能であり、モデルの能力が向上し、受容野が強化されます。大規模なカーネル畳み込みは、計算コストを削減しながらこれらの特性を強化します。要約すると、MovePose は高精度とリアルタイム パフォーマンスを提供し、モバイル側での人間の姿勢推定に重点を置いたアプリケーションを含む、さまざまなアプリケーション向けの潜在的なツールとなることがわかります。このアルゴリズムのコードとモデルは一般に公開されます。
We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. The network produces 17 keypoints for each individual at a rate exceeding 11 frames per second, making it suitable for real-time applications such as fitness tracking, sign language interpretation, and advanced mobile human posture estimation. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 67.7 on the COCO cocodata validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
updated: Sat Nov 25 2023 15:54:59 GMT+0000 (UTC)
published: Thu Aug 17 2023 16:23:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト