arXiv reaDer
ViTPose+: 一般的な身体姿勢推定のための Vision Transformer Foundation モデル
ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation
このホワイト ペーパーでは、シンプルなベースライン モデルを使用して、モデル構造の単純さ、モデル サイズのスケーラビリティ、トレーニング パラダイムの柔軟性、モデル間の知識の伝達性など、さまざまな側面から体の姿勢を推定するプレーン ビジョン トランスフォーマーの驚くほど優れた特性を示します。 ViTPose と呼ばれます。具体的には、ViTPose はプレーンで非階層的なビジョン トランスフォーマーをエンコーダーとして使用して特徴をエンコードし、軽量のデコーダーを使用してボディ キーポイントをトップダウンまたはボトムアップ方式でデコードします。スケーラブルなモデル容量とビジョン トランスフォーマーの高い並列性を利用して、スループットとパフォーマンスの新しいパレート フロントを設定することで、約 20M から 1B のパラメーターにスケールアップできます。さらに、ViTPose はアテンション タイプ、入力解像度、事前トレーニングおよび微調整戦略に関して非常に柔軟です。柔軟性に基づいて、新しい ViTPose+ モデルが提案され、さまざまなタイプの身体姿勢推定タスクにおける異種の身体キーポイント カテゴリを、知識の因数分解によって処理します。つまり、トランスフォーマーにタスクに依存しないフィード フォワード ネットワークとタスク固有のフィード フォワード ネットワークを採用します。また、単純な知識トークンを介して、大規模な ViTPose モデルの知識を小さなモデルに簡単に転送できることも経験的に示しています。実験結果は、当社の ViTPose モデルが、トップダウン設定とボトムアップ設定の両方で、困難な MS COCO Human Keypoint Detection ベンチマークで代表的な方法よりも優れていることを示しています。さらに、当社の ViTPose+ モデルは、MS COCO、AI Challenger、OCHuman、人間のキーポイント検出用の MPII、全身のキーポイント検出用の COCO-Wholebody など、一連の身体姿勢推定タスクで同時に最先端のパフォーマンスを実現します。推論速度を犠牲にすることなく、動物のキーポイント検出用の AP-10K および APT-36K と同様に。
In this paper, we show the surprisingly good properties of plain vision transformers for body pose estimation from various aspects, namely simplicity in model structure, scalability in model size, flexibility in training paradigm, and transferability of knowledge between models, through a simple baseline model dubbed ViTPose. Specifically, ViTPose employs the plain and non-hierarchical vision transformer as an encoder to encode features and a lightweight decoder to decode body keypoints in either a top-down or a bottom-up manner. It can be scaled up from about 20M to 1B parameters by taking advantage of the scalable model capacity and high parallelism of the vision transformer, setting a new Pareto front for throughput and performance. Besides, ViTPose is very flexible regarding the attention type, input resolution, and pre-training and fine-tuning strategy. Based on the flexibility, a novel ViTPose+ model is proposed to deal with heterogeneous body keypoint categories in different types of body pose estimation tasks via knowledge factorization, i.e., adopting task-agnostic and task-specific feed-forward networks in the transformer. We also empirically demonstrate that the knowledge of large ViTPose models can be easily transferred to small ones via a simple knowledge token. Experimental results show that our ViTPose model outperforms representative methods on the challenging MS COCO Human Keypoint Detection benchmark at both top-down and bottom-up settings. Furthermore, our ViTPose+ model achieves state-of-the-art performance simultaneously on a series of body pose estimation tasks, including MS COCO, AI Challenger, OCHuman, MPII for human keypoint detection, COCO-Wholebody for whole-body keypoint detection, as well as AP-10K and APT-36K for animal keypoint detection, without sacrificing inference speed.
updated: Wed Dec 07 2022 12:33:28 GMT+0000 (UTC)
published: Wed Dec 07 2022 12:33:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト