3D人間のポーズの三角測量のための確率的モデリングフレームワークを提案し、さまざまなデータセットと空間カメラの配置全体でそのパフォーマンスを評価します。 3Dポーズ推定の一般的なアプローチは、最初に画像内の2Dキーポイントを検出し、次に複数のビューから三角測量を適用することです。ただし、既存の三角測量モデルの大部分は、単一のデータセット、つまりカメラの配置とその数に制限されています。さらに、既知のカメラパラメータが必要です。提案された確率的ポーズ三角測量モデルは、異なるカメラ配置および2つの公開データセット間で正常に一般化されます。各ステップで、ビューのランダムなサブセットから三角測量によって取得された3Dポーズ仮説のセットを生成します。仮説はニューラルネットワークによって評価され、三角測量エラーの予想は最小限に抑えられます。重要な目新しさは、ネットワークが空間カメラの配置を考慮せずにポーズを評価することを学習し、それによって一般化を改善することです。さらに、提案された確率的フレームワークが基本的な行列推定にも使用できることを示し、ノイズの多いキーポイント対応からの相対的なカメラポーズ推定に向けた有望な結果を示します。
We propose a stochastic modeling framework for 3D human pose triangulation and evaluate its performance across different datasets and spatial camera arrangements. The common approach to 3D pose estimation is to first detect 2D keypoints in images and then apply the triangulation from multiple views. However, the majority of existing triangulation models are limited to a single dataset, i.e. camera arrangement and their number. Moreover, they require known camera parameters. The proposed stochastic pose triangulation model successfully generalizes to different camera arrangements and between two public datasets. In each step, we generate a set of 3D pose hypotheses obtained by triangulation from a random subset of views. The hypotheses are evaluated by a neural network and the expectation of the triangulation error is minimized. The key novelty is that the network learns to evaluate the poses without taking into account the spatial camera arrangement, thus improving generalization. Additionally, we demonstrate that the proposed stochastic framework can also be used for fundamental matrix estimation, showing promising results towards relative camera pose estimation from noisy keypoint correspondences.