arXiv reaDer
自己中心的な3Dポーズ推定のための時空間トランスフォーマーの構築
Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation
画像からの自己中心的な3D人間のポーズ推定(HPE)は、ヘッドマウントカメラからの魚眼ビューによってもたらされる深刻な自己閉塞と強い歪みのために困難です。既存の作品は、中間ヒートマップベースの表現を使用して歪みに対抗し、ある程度の成功を収めていますが、自己閉塞への対処は未解決の問題のままです。この作業では、過去のフレームからの情報を活用して、自己注意ベースの3DHPE推定手順であるEgo-STANをガイドします。具体的には、意味的に豊富な畳み込みニューラルネットワークベースの特徴マップに対応する時空間Transformerモデルを構築します。また、特徴マップトークンを提案します。これらの特徴マップに参加するための学習可能なパラメーターの新しいセットです。最後に、xR-EgoPoseデータセットでのEgo-STANの優れたパフォーマンスを示します。ここでは、関節あたりの平均位置誤差全体で30.6%の改善が達成され、最新の状態と比較してパラメーターが22%低下します。美術。
Egocentric 3D human pose estimation (HPE) from images is challenging due to severe self-occlusions and strong distortion introduced by the fish-eye view from the head mounted camera. Although existing works use intermediate heatmap-based representations to counter distortion with some success, addressing self-occlusion remains an open problem. In this work, we leverage information from past frames to guide our self-attention-based 3D HPE estimation procedure -- Ego-STAN. Specifically, we build a spatio-temporal Transformer model that attends to semantically rich convolutional neural network-based feature maps. We also propose feature map tokens: a new set of learnable parameters to attend to these feature maps. Finally, we demonstrate Ego-STAN's superior performance on the xR-EgoPose dataset where it achieves a 30.6% improvement on the overall mean per-joint position error, while leading to a 22% drop in parameters compared to the state-of-the-art.
updated: Thu Jun 09 2022 22:33:27 GMT+0000 (UTC)
published: Thu Jun 09 2022 22:33:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト