EventHands: Real-Time Neural 3D Hand Pose Estimation from an Event Stream
単眼ビデオからの3D手のポーズ推定は、長年にわたる困難な問題であり、現在、大きな好転が見られています。この作品では、単一のイベントカメラ、つまり明るさの変化に反応する非同期ビジョンセンサーを使用して初めてこれに対処します。私たちのEventHandsアプローチには、低いデータスループットでの高い時間分解能や1000 Hzでのリアルタイムパフォーマンスなど、単一のRGBまたは深度カメラではこれまで実証されていなかった特性があります。従来のカメラとはイベントカメラのデータモダリティが異なるため、既存の方法をイベントストリームに直接適用したり、イベントストリーム用に再トレーニングしたりすることはできません。したがって、学習に適した新しいイベントストリーム表現を受け入れる新しいニューラルアプローチを設計します。これは、新しく生成された合成イベントストリームでトレーニングされ、実際のデータに一般化できます。実験によると、EventHandsは、カラー(または深度)カメラを使用した最近の単眼法よりも、精度と前例のない速度の手の動きをキャプチャする能力の点で優れています。私たちの方法、イベントストリームシミュレーター、およびデータセットは公開されています。を参照してください
3D hand pose estimation from monocular videos is a long-standing and challenging problem, which is now seeing a strong upturn. In this work, we address it for the first time using a single event camera, i.e., an asynchronous vision sensor reacting on brightness changes. Our EventHands approach has characteristics previously not demonstrated with a single RGB or depth camera such as high temporal resolution at low data throughputs and real-time performance at 1000 Hz. Due to the different data modality of event cameras compared to classical cameras, existing methods cannot be directly applied to and re-trained for event streams. We thus design a new neural approach which accepts a new event stream representation suitable for learning, which is trained on newly-generated synthetic event streams and can generalise to real data. Experiments show that EventHands outperforms recent monocular methods using a colour (or depth) camera in terms of accuracy and its ability to capture hand motions of unprecedented speed. Our method, the event stream simulator and the dataset are publicly available; see
updated: Mon Oct 11 2021 16:37:49 GMT+0000 (UTC)
published: Fri Dec 11 2020 16:45:34 GMT+0000 (UTC)
