人間のポーズと形状は、2D人体の2つの重要なコンポーネントです。ただし、画像でこれらの両方を効率的に表現する方法は、未解決の問題です。この論文では、人間の姿勢情報を含むスケルトンキーポイントと人間の形状情報を含む輪郭キーポイントを備えたコンパクトな2D人体表現である体のトリプレット表現(TRB)を提案します。 TRBは、スケルトンキーポイント表現の柔軟性を保持するだけでなく、豊富なポーズと人間の形状情報も含みます。したがって、人間の形状の編集や条件付き画像の生成など、より広範なアプリケーション分野を約束します。さらに、人間のポーズと形状の共同学習が必要なTRB推定の挑戦的な問題を紹介します。人気のある2Dポーズデータセットに基づいて、いくつかの大規模なTRB推定データセットを構築します:LSP、MPII、COCO。 TRB推定を効果的に解決するために、X構造(Xs)、方向畳み込み(DC)、およびペアワイズマッピング(PM)の3つの新しい手法を備えた2分岐ネットワーク(TRB-net)を提案し、マルチレベルのメッセージの受け渡しを実施します共同機能学習用。提案されたTRB-netと、提案されたTRBデータセットに関するいくつかの主要なアプローチを評価し、広範な評価を通じて本方法の優位性を実証します。
Human pose and shape are two important components of 2D human body. However, how to efficiently represent both of them in images is still an open question. In this paper, we propose the Triplet Representation for Body (TRB) -- a compact 2D human body representation, with skeleton keypoints capturing human pose information and contour keypoints containing human shape information. TRB not only preserves the flexibility of skeleton keypoint representation, but also contains rich pose and human shape information. Therefore, it promises broader application areas, such as human shape editing and conditional image generation. We further introduce the challenging problem of TRB estimation, where joint learning of human pose and shape is required. We construct several large-scale TRB estimation datasets, based on popular 2D pose datasets: LSP, MPII, COCO. To effectively solve TRB estimation, we propose a two-branch network (TRB-net) with three novel techniques, namely X-structure (Xs), Directional Convolution (DC) and Pairwise Mapping (PM), to enforce multi-level message passing for joint feature learning. We evaluate our proposed TRB-net and several leading approaches on our proposed TRB datasets, and demonstrate the superiority of our method through extensive evaluations.