arXiv reaDer
Poseur:トランスフォーマーを使用した直接的な人間のポーズの回帰
Poseur: Direct Human Pose Regression with Transformers
単一画像からの2D人間の姿勢推定への直接的な回帰ベースのアプローチを提案します。問題をシーケンス予測タスクとして定式化し、Transformerネットワークを使用して解決します。このネットワークは、ヒートマップなどの中間表現に頼ることなく、画像からキーポイント座標への回帰マッピングを直接学習します。このアプローチは、ヒートマップベースのアプローチに関連する複雑さの多くを回避します。以前の回帰ベースの方法の機能の不整合の問題を克服するために、ターゲットのキーポイントに最も関連する機能に適応的に対応し、精度を大幅に向上させる注意メカニズムを提案します。重要なのは、私たちのフレームワークはエンドツーエンドで差別化可能であり、キーポイント間の依存関係を活用することを自然に学習することです。 2つの主要なポーズ推定データセットであるMS-COCOとMPIIでの実験は、私たちの方法が回帰ベースのポーズ推定の最先端を大幅に改善することを示しています。さらに注目すべきことに、私たちのアプローチは、最高のヒートマップベースのポーズ推定方法と比較して、良好に機能する最初の回帰ベースのアプローチです。
We propose a direct, regression-based approach to 2D human pose estimation from single images. We formulate the problem as a sequence prediction task, which we solve using a Transformer network. This network directly learns a regression mapping from images to the keypoint coordinates, without resorting to intermediate representations such as heatmaps. This approach avoids much of the complexity associated with heatmap-based approaches. To overcome the feature misalignment issues of previous regression-based methods, we propose an attention mechanism that adaptively attends to the features that are most relevant to the target keypoints, considerably improving the accuracy. Importantly, our framework is end-to-end differentiable, and naturally learns to exploit the dependencies between keypoints. Experiments on MS-COCO and MPII, two predominant pose-estimation datasets, demonstrate that our method significantly improves upon the state-of-the-art in regression-based pose estimation. More notably, ours is the first regression-based approach to perform favorably compared to the best heatmap-based pose estimation methods.
updated: Wed Jan 19 2022 04:31:57 GMT+0000 (UTC)
published: Wed Jan 19 2022 04:31:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト