arXiv reaDer
TransPose: トランスフォーマーによる説明可能な人物姿勢推定を目指して
TransPose: Towards Explainable Human Pose Estimation by Transformer
深層畳み込みニューラルネットワーク(CNN)は、人間のポーズ推定タスクにおいて著しい進歩を遂げている。しかし、体のキーポイントの位置がCNNによってどのように予測されるのかについては明確な理解がなく、また、構造変数間の空間的な依存関係がモデルにどのように学習されるのかも不明である。これらの疑問を探るために、トランスフォーマーアーキテクチャと低レベルの畳み込みブロックに基づいて、TransPoseと名付けられた説明可能なモデルを構築する。画像が与えられたとき、トランスフォーマーで構築されたアテンション層は、キーポイント間の長距離の空間的関係を捉え、予測されたキーポイントの位置がどのような依存関係に強く依存しているかを説明することができる。このタスクにおいて、空間的な依存関係を明らかにするための説明として、アテンションを用いることの合理性を分析する。明らかにされた依存性は、画像に固有のものであり、キーポイントの種類、レイヤーの深さ、学習されたモデルの違いによって変化する。実験の結果、TransPoseはキーポイントの位置を正確に予測できることがわかった。TransPoseは、COCOデータセットにおいて最先端の性能を達成するとともに、主流の完全畳み込みアーキテクチャよりも解釈しやすく、軽量で効率的である。
Deep Convolutional Neural Networks (CNNs) have made remarkable progress on human pose estimation task. However, there is no explicit understanding of how the locations of body keypoints are predicted by CNN, and it is also unknown what spatial dependency relationships between structural variables are learned in the model. To explore these questions, we construct an explainable model named TransPose based on Transformer architecture and low-level convolutional blocks. Given an image, the attention layers built in Transformer can capture long-range spatial relationships between keypoints and explain what dependencies the predicted keypoints locations highly rely on. We analyze the rationality of using attention as the explanation to reveal the spatial dependencies in this task. The revealed dependencies are image-specific and variable for different keypoint types, layer depths, or trained models. The experiments show that TransPose can accurately predict the positions of keypoints. It achieves state-of-the-art performance on COCO dataset, while being more interpretable, lightweight, and efficient than mainstream fully convolutional architectures.
updated: Thu Dec 31 2020 07:15:16 GMT+0000 (UTC)
published: Mon Dec 28 2020 12:33:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト