arXiv reaDer
ディープビデオベースの3D人間姿勢推定のための軌道空間因数分解
Trajectory Space Factorization for Deep Video-Based 3D Human Pose Estimation
ビデオの3D人間ポーズ推定に関する既存の深層学習アプローチは、リカレントネットワークまたは畳み込みニューラルネットワーク(RNNまたはCNN)に基づいています。ただし、RNNベースのフレームワークは、シーケンシャルモデルが不良フレームに敏感で、長いシーケンスでドリフトする傾向があるため、限られたフレームでのみシーケンスに取り組むことができます。既存のCNNベースの時間的フレームワークは、シーケンス内のすべての入力フレームを同時に処理することにより、感度とドリフトの問題に対処しようとしますが、既存の最先端のCNNベースのフレームワークは、順次入力。本論文では、逐次3次元人間の姿勢推定に行列因数分解を利用する深層学習ベースのフレームワークを提案します。私たちのアプローチは、感度とドリフトの問題を回避するためにすべての入力フレームを同時に処理しますが、入力シーケンスのすべてのフレームの3dポーズ推定値を出力します。より具体的には、すべてのフレームの3dポーズは、軌跡ベース行列と軌跡係数行列に分解された運動行列として表されます。軌道ベース行列は、特異値分解(SVD)や離散コサイン変換(DCT)などの行列因数分解アプローチから事前計算され、シーケンシャル3dポーズ推定の問題は、深いネットワークをトレーニングして軌道係数行列を回帰することで軽減されます。複数のベンチマークデータセットで最先端のパフォーマンスを達成することにより、長いシーケンスでのフレームワークの有効性を実証します。ソースコードはhttps://github.com/jiahaoLjh/trajectory-pose-3dで入手できます。
Existing deep learning approaches on 3d human pose estimation for videos are either based on Recurrent or Convolutional Neural Networks (RNNs or CNNs). However, RNN-based frameworks can only tackle sequences with limited frames because sequential models are sensitive to bad frames and tend to drift over long sequences. Although existing CNN-based temporal frameworks attempt to address the sensitivity and drift problems by concurrently processing all input frames in the sequence, the existing state-of-the-art CNN-based framework is limited to 3d pose estimation of a single frame from a sequential input. In this paper, we propose a deep learning-based framework that utilizes matrix factorization for sequential 3d human poses estimation. Our approach processes all input frames concurrently to avoid the sensitivity and drift problems, and yet outputs the 3d pose estimates for every frame in the input sequence. More specifically, the 3d poses in all frames are represented as a motion matrix factorized into a trajectory bases matrix and a trajectory coefficient matrix. The trajectory bases matrix is precomputed from matrix factorization approaches such as Singular Value Decomposition (SVD) or Discrete Cosine Transform (DCT), and the problem of sequential 3d pose estimation is reduced to training a deep network to regress the trajectory coefficient matrix. We demonstrate the effectiveness of our framework on long sequences by achieving state-of-the-art performances on multiple benchmark datasets. Our source code is available at: https://github.com/jiahaoLjh/trajectory-pose-3d.
updated: Thu Aug 22 2019 10:03:30 GMT+0000 (UTC)
published: Thu Aug 22 2019 10:03:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト