手のポーズ推定(HPE)は、物理デバイスまたは仮想/拡張現実デバイスのジェスチャベースの制御など、さまざまなヒューマンコンピュータインタラクションアプリケーションに使用できます。最近の研究によると、ビデオまたはマルチビュー画像には手に関する豊富な情報が含まれているため、より堅牢なHPEシステムの開発が可能になります。このホワイトペーパーでは、手のマルチビュービデオとグラウンドトゥルース3Dポーズラベルで構成されるマルチビュービデオベースの3Dハンド(MuViHand)データセットを紹介します。私たちのデータセットには、4,560本のビデオで利用可能な402,000を超える合成手の画像が含まれています。ビデオは、複雑な背景とランダムなレベルの動的照明を使用して、6つの異なる角度から同時にキャプチャされています。データは、6台の追跡カメラが手だけに焦点を合わせ、他の6台の固定カメラが全身をキャプチャする半円トポロジーの12台のカメラを使用して、10の異なるアニメーション対象からキャプチャされました。次に、手の視覚的埋め込みを取得するための画像エンコーダー、時間と角度の両方のシーケンシャル情報を学習するための反復学習者、および最終的な3Dポーズ情報を推定するためのU-Netアーキテクチャを備えたグラフネットワークで構成されるニューラルパイプラインであるMuViHandNetを実装します。広範な実験を行い、この新しいデータセットの挑戦的な性質と提案された方法の有効性を示します。アブレーション研究は、MuViHandNetの各コンポーネントの付加価値と、データセットに時間的および順次的な情報を含めることの利点を示しています。
Hand pose estimation (HPE) can be used for a variety of human-computer interaction applications such as gesture-based control for physical or virtual/augmented reality devices. Recent works have shown that videos or multi-view images carry rich information regarding the hand, allowing for the development of more robust HPE systems. In this paper, we present the Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view videos of the hand along with ground-truth 3D pose labels. Our dataset includes more than 402,000 synthetic hand images available in 4,560 videos. The videos have been simultaneously captured from six different angles with complex backgrounds and random levels of dynamic lighting. The data has been captured from 10 distinct animated subjects using 12 cameras in a semi-circle topology where six tracking cameras only focus on the hand and the other six fixed cameras capture the entire body. Next, we implement MuViHandNet, a neural pipeline consisting of image encoders for obtaining visual embeddings of the hand, recurrent learners to learn both temporal and angular sequential information, and graph networks with U-Net architectures to estimate the final 3D pose information. We perform extensive experiments and show the challenging nature of this new dataset as well as the effectiveness of our proposed method. Ablation studies show the added value of each component in MuViHandNet, as well as the benefit of having temporal and sequential information in the dataset.