この研究では、不明瞭な条件下で単一の画像から 3D ヒューマン メッシュを復元する問題に焦点を当てます。最先端の手法のほとんどは、空間平均や 2D ジョイント サンプリングなどの 2D アライメント テクノロジの向上を目的としています。ただし、3D 表現を改善することで、3D 位置合わせの重要な側面が無視される傾向があります。さらに、最近の手法では、局所的な監視として 3D 関節座標を使用して対象となる人間の 3D 空間を最適化するため、混雑したシーンで対象となる人間をオクルージョンや背景から分離するのが困難になります。これらの問題に対処するための望ましい方法には、2D 機能と 3D 機能を融合するためのフレームワークと、3D 空間をグローバルに最適化するための戦略が含まれます。したがって、この論文では、遮蔽された 3D ヒューマン メッシュの回復を処理するための TRansformers による 3D JOint 対比学習 (JOTR) フレームワークを紹介します。私たちの手法には、2D 表現と 3D 表現を融合して粗密な方法で 2D と 3D の位置合わせ結果を達成するためのエンコーダ - デコーダ変換アーキテクチャと、3D 特徴空間に明示的にグローバルな監視を追加するための新しい 3D 共同対比学習アプローチが含まれています。対比学習アプローチには、2 つの対比損失が含まれます。1 つは意味的に類似したボクセル (つまり、人間の関節) の類似性を高めるための関節間のコントラスト、もう 1 つは他のもの (遮蔽や背景など) からの識別を確実にするための関節と非関節のコントラストです。 )。定性的および定量的分析により、私たちの方法がオクルージョン固有のベンチマークと標準ベンチマークの両方で最先端の競合他社を上回っており、オクルージョンされた人間の再構成が大幅に向上していることが実証されています。
In this study, we focus on the problem of 3D human mesh recovery from a single image under obscured conditions. Most state-of-the-art methods aim to improve 2D alignment technologies, such as spatial averaging and 2D joint sampling. However, they tend to neglect the crucial aspect of 3D alignment by improving 3D representations. Furthermore, recent methods struggle to separate the target human from occlusion or background in crowded scenes as they optimize the 3D space of target human with 3D joint coordinates as local supervision. To address these issues, a desirable method would involve a framework for fusing 2D and 3D features and a strategy for optimizing the 3D space globally. Therefore, this paper presents 3D JOint contrastive learning with TRansformers (JOTR) framework for handling occluded 3D human mesh recovery. Our method includes an encoder-decoder transformer architecture to fuse 2D and 3D representations for achieving 2D\&3D aligned results in a coarse-to-fine manner and a novel 3D joint contrastive learning approach for adding explicitly global supervision for the 3D feature space. The contrastive learning approach includes two contrastive losses: joint-to-joint contrast for enhancing the similarity of semantically similar voxels (i.e., human joints), and joint-to-non-joint contrast for ensuring discrimination from others (e.g., occlusions and background). Qualitative and quantitative analyses demonstrate that our method outperforms state-of-the-art competitors on both occlusion-specific and standard benchmarks, significantly improving the reconstruction of occluded humans.