各ビューでの2D人間のポーズの推定は、通常、キャリブレーションされたマルチビュー3Dポーズ推定の最初のステップです。しかし、2Dポーズ検出器のパフォーマンスは、オクルージョンや斜めの視角などの困難な状況に悩まされています。これらの課題に対処するために、以前の研究では、エピポーラジオメトリからのさまざまなビュー間のポイントツーポイントの対応を導き出し、その対応を利用して予測ヒートマップまたは特徴表現をマージします。予測後のマージ/キャリブレーションの代わりに、ここでは、さまざまなビューからの情報を統合することによって個々の2D予測子を直接改善することを目的として、マルチビュー3Dポーズ推定用のトランスフォーマーフレームワークを紹介します。以前のマルチモーダルトランスフォーマーに触発されて、現在のビューと隣接するビューの両方からキューを融合する、TransFusionという名前の統合トランスフォーマーアーキテクチャを設計します。さらに、3D位置情報をトランスモデルにエンコードするエピポーラフィールドの概念を提案します。エピポーラフィールドによって導かれる3D位置エンコーディングは、異なるビューのピクセル間の対応をエンコードする効率的な方法を提供します。 Human 3.6MとSki-Poseでの実験は、他の融合方法と比較して、私たちの方法がより効率的であり、一貫した改善があることを示しています。具体的には、256 x256の解像度でわずか5Mのパラメーターを使用してHuman3.6Mで25.8mmのMPJPEを実現します。
Estimating the 2D human poses in each view is typically the first step in calibrated multi-view 3D pose estimation. But the performance of 2D pose detectors suffers from challenging situations such as occlusions and oblique viewing angles. To address these challenges, previous works derive point-to-point correspondences between different views from epipolar geometry and utilize the correspondences to merge prediction heatmaps or feature representations. Instead of post-prediction merge/calibration, here we introduce a transformer framework for multi-view 3D pose estimation, aiming at directly improving individual 2D predictors by integrating information from different views. Inspired by previous multi-modal transformers, we design a unified transformer architecture, named TransFusion, to fuse cues from both current views and neighboring views. Moreover, we propose the concept of epipolar field to encode 3D positional information into the transformer model. The 3D position encoding guided by the epipolar field provides an efficient way of encoding correspondences between pixels of different views. Experiments on Human 3.6M and Ski-Pose show that our method is more efficient and has consistent improvements compared to other fusion methods. Specifically, we achieve 25.8 mm MPJPE on Human 3.6M with only 5M parameters on 256 x 256 resolution.