arXiv reaDer
密なメッシュで運ばれる局所画像の特徴を備えた単眼の人間の形とポーズ
Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features
ピクセル整列された局所画像特徴を使用して、単眼入力からの人間の形状および姿勢推定のためのグラフ畳み込みベースのアプローチを改善することを提案する。単一の入力カラー画像が与えられた場合、人間の形状と姿勢を推定するための既存のグラフ畳み込みネットワーク(GCN)ベースの手法では、単一の畳み込みニューラルネットワーク(CNN)で生成されたグローバル画像の特徴をすべてのメッシュ頂点に均等に追加して、GCNステージを初期化します。テンプレートTポーズメッシュをターゲットポーズに。対照的に、頂点ごとにローカル画像の特徴を使用するというアイデアを初めて提案します。これらの特徴は、DensePoseで生成されたピクセルとメッシュの対応を利用して、CNN画像の特徴マップからサンプリングされます。標準ベンチマークでの定量的および定性的な結果は、ローカル機能を使用するとグローバル機能が改善され、最先端のパフォーマンスで競争力のあるパフォーマンスが得られることを示しています。
We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art.
updated: Wed Nov 10 2021 02:00:05 GMT+0000 (UTC)
published: Tue Nov 09 2021 18:43:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト