arXiv reaDer
Swin-Pose:SwinTransformerベースの人間のポーズ推定
Swin-Pose: Swin Transformer Based Human Pose Estimation
畳み込みニューラルネットワーク(CNN)は、多くのコンピュータービジョンタスクで広く利用されています。ただし、CNNには固定の受信フィールドがあり、人間の姿勢推定に不可欠な長距離知覚の機能が不足しています。ピクセル間の長距離依存関係をキャプチャする機能により、最近コンピュータビジョンアプリケーションにトランスアーキテクチャが採用され、非常に効果的なアーキテクチャであることが証明されています。人間の姿勢推定におけるその能力を探求することに興味があり、したがって、特徴的なピラミッド融合構造で強化された、変圧器アーキテクチャに基づく新しいモデルを提案します。具体的には、事前にトレーニングされたSwin Transformerをバックボーンとして使用し、入力画像から特徴を抽出します。特徴ピラミッド構造を利用して、さまざまな段階から特徴マップを抽出します。機能を融合することにより、モデルはキーポイントヒートマップを予測します。私たちの研究の実験結果は、提案されたトランスベースのモデルが、最先端のCNNベースのモデルと比較してより良いパフォーマンスを達成できることを示しています。
Convolutional neural networks (CNNs) have been widely utilized in many computer vision tasks. However, CNNs have a fixed reception field and lack the ability of long-range perception, which is crucial to human pose estimation. Due to its capability to capture long-range dependencies between pixels, transformer architecture has been adopted to computer vision applications recently and is proven to be a highly effective architecture. We are interested in exploring its capability in human pose estimation, and thus propose a novel model based on transformer architecture, enhanced with a feature pyramid fusion structure. More specifically, we use pre-trained Swin Transformer as our backbone and extract features from input images, we leverage a feature pyramid structure to extract feature maps from different stages. By fusing the features together, our model predicts the keypoint heatmap. The experiment results of our study have demonstrated that the proposed transformer-based model can achieve better performance compared to the state-of-the-art CNN-based models.
updated: Wed Jan 19 2022 02:15:26 GMT+0000 (UTC)
published: Wed Jan 19 2022 02:15:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト