ヒューマンロボットインタラクション(HRI)シナリオに適用できる信頼性の高い高速な複数人物の姿勢推定アルゴリズムを取得するために、最新の畳み込みニューラルネットワーク(CNN)モデルを深度イメージングと組み合わせることを提案します。私たちの仮説は、深度画像の構造が少なく、人間の検出とポーズの推論に必要な情報を保持しながら、RGB画像よりも処理が簡単であるため、タスクにシンプルなネットワークを使用できることです。私たちの貢献は3つあります。 (i)深度画像からのボディランドマークのローカリゼーションのための残差ブロック(RPMと呼ばれる)に基づく高速で効率的なネットワークを提案します。 (ii)評価用の実際の(注釈付きの)データだけでなく、さまざまな形状や視点を持つ人体の170k以上の合成画像を含むパブリックデータセットDIHを作成しました。 (iii)ゼロから合成データでトレーニングされたモデルが実際のデータでうまく機能し、事前トレーニングされたネットワークで初期化されたより大きなモデルと同様の結果が得られることを示します。したがって、パフォーマンスと計算の間の適切なトレードオフを提供します。実際のデータの実験は、我々のアプローチの妥当性を示しています。
We propose to combine recent Convolutional Neural Networks (CNN) models with depth imaging to obtain a reliable and fast multi-person pose estimation algorithm applicable to Human Robot Interaction (HRI) scenarios. Our hypothesis is that depth images contain less structures and are easier to process than RGB images while keeping the required information for human detection and pose inference, thus allowing the use of simpler networks for the task. Our contributions are threefold. (i) we propose a fast and efficient network based on residual blocks (called RPM) for body landmark localization from depth images; (ii) we created a public dataset DIH comprising more than 170k synthetic images of human bodies with various shapes and viewpoints as well as real (annotated) data for evaluation; (iii) we show that our model trained on synthetic data from scratch can perform well on real data, obtaining similar results to larger models initialized with pre-trained networks. It thus provides a good trade-off between performance and computation. Experiments on real data demonstrate the validity of our approach.