arXiv reaDer
AggPose: 幼児の姿勢推定のためのディープ アグリゲーション ビジョン トランスフォーマー
AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation
新生児の動きと姿勢の評価により、経験豊富な小児科医は神経発達障害を予測し、関連疾患への早期介入が可能になります。ただし、人間の姿勢推定方法に対する最新の AI アプローチのほとんどは成人に焦点を当てており、乳児の姿勢推定の公的なベンチマークがありません。この論文では、初期段階で特徴を抽出するために畳み込み演算を使用せずに、高速トレーニングされた完全なトランスフォーマー フレームワークを導入する、人間の姿勢推定用の幼児ポーズ データセットとディープ アグリゲーション ビジョン トランスフォーマーを提案することにより、このギャップを埋めます。 Transformer + MLP を機能マップ内の高解像度のディープ レイヤー アグリゲーションに一般化することで、異なるビジョン レベル間の情報融合を可能にします。 COCOポーズデータセットでAggPoseを事前トレーニングし、新しくリリースされた大規模な幼児ポーズ推定データセットに適用します。結果は、AggPose がさまざまな解像度間でマルチスケールの特徴を効果的に学習し、幼児の姿勢推定のパフォーマンスを大幅に改善できることを示しています。乳児姿勢推定データセットにおいて、AggPose がハイブリッド モデル HRFormer および TokenPose よりも優れていることを示します。さらに、AggPose は、COCO val ポーズ推定で平均 0.8 AP HRFormer を上回っています。コードは github.com/SZAR-LAB/AggPose で入手できます。
Movement and pose assessment of newborns lets experienced pediatricians predict neurodevelopmental disorders, allowing early intervention for related diseases. However, most of the newest AI approaches for human pose estimation methods focus on adults, lacking publicly benchmark for infant pose estimation. In this paper, we fill this gap by proposing infant pose dataset and Deep Aggregation Vision Transformer for human pose estimation, which introduces a fast trained full transformer framework without using convolution operations to extract features in the early stages. It generalizes Transformer + MLP to high-resolution deep layer aggregation within feature maps, thus enabling information fusion between different vision levels. We pre-train AggPose on COCO pose dataset and apply it on our newly released large-scale infant pose estimation dataset. The results show that AggPose could effectively learn the multi-scale features among different resolutions and significantly improve the performance of infant pose estimation. We show that AggPose outperforms hybrid model HRFormer and TokenPose in the infant pose estimation dataset. Moreover, our AggPose outperforms HRFormer by 0.8 AP on COCO val pose estimation on average. Our code is available at github.com/SZAR-LAB/AggPose.
updated: Wed Aug 10 2022 03:05:58 GMT+0000 (UTC)
published: Wed May 11 2022 05:34:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト