手のジェスチャーは、拡張現実とバーチャルリアリティ(AR / VR)アプリケーションでの相互作用の自然な手段です。最近、Microsoft HoloLens、Daqri、Meta Glassesなどの高価なプロプライエタリデバイスに見られる複雑なセンサー設定に対する正確なハンドジェスチャ認識の依存性を取り除くことに重点が置かれています。そのようなソリューションのほとんどは、マルチモーダルセンサーデータまたは豊富なラベル付きデータから大きな利益を得ることができるディープニューラルネットワークに依存しています。データセットは、深層学習ベースの研究の不可欠な部分です。これらは、これらのモデルのトレーニングに十分なデータを提供するという点と、競合するアルゴリズムのベンチマークの両方の点で、この分野での実質的な進歩の主な理由です。ただし、ハンドジェスチャ認識などの複雑なタスクに十分なラベル付きデータを生成することはますます難しくなっています。この作業の目標は、AR / VRアプリケーションでの手ジェスチャー認識のモデルの設計、トレーニング、およびベンチマークに役立つ、手の境界ボックスと指先をラベル付けしたフォトリアリスティックビデオを生成できるフレームワークを導入することです。多様な背景を持つ動画を生成する際のフレームワークの有効性を示します。
Hand gestures are a natural means of interaction in Augmented Reality and Virtual Reality (AR/VR) applications. Recently, there has been an increased focus on removing the dependence of accurate hand gesture recognition on complex sensor setup found in expensive proprietary devices such as the Microsoft HoloLens, Daqri and Meta Glasses. Most such solutions either rely on multi-modal sensor data or deep neural networks that can benefit greatly from abundance of labelled data. Datasets are an integral part of any deep learning based research. They have been the principal reason for the substantial progress in this field, both, in terms of providing enough data for the training of these models, and, for benchmarking competing algorithms. However, it is becoming increasingly difficult to generate enough labelled data for complex tasks such as hand gesture recognition. The goal of this work is to introduce a framework capable of generating photo-realistic videos that have labelled hand bounding box and fingertip that can help in designing, training, and benchmarking models for hand-gesture recognition in AR/VR applications. We demonstrate the efficacy of our framework in generating videos with diverse backgrounds.