Progression Modelling for Online and Early Gesture Detection
  タッチレスジェスチャベースのインターフェイスを構築するには、ジェスチャのオンラインおよび早期検出が不可欠です。これらのインターフェイスは、完全なビデオではなくビデオフレームのストリームで動作し、リアルタイムのユーザーエクスペリエンスを提供するために、完了後よりも早い段階でジェスチャの存在を検出する必要があります。これを実現するには、さまざまな段階にわたるジェスチャの進行を認識して、目的の実行段階に到達したときに適切な応答をトリガーできるようにすることが重要です。これに対処するために、フレームレベルの認識とともにジェスチャの進行をモデル化する、シンプルで効果的なマルチタスク学習フレームワークを提案します。提案されたフレームワークは、早い段階でジェスチャを高精度で認識し、87.8%の最先端の認識精度を達成します。これは、オフライン構成のNVIDIAジェスチャデータセットの人間の正確度88.4%に近く、状態を進めます。 -4%以上の最新技術。また、NVIDIAジェスチャデータセットに厳密にセグメント化された注釈を導入し、このデータセットのジェスチャローカリゼーションの強力なベースラインを設定します。また、Montalbanoデータセットのフレームワークを評価し、競争力のある結果を報告します。
Online and Early detection of gestures is crucial for building touchless gesture based interfaces. These interfaces should operate on a stream of video frames instead of the complete video and detect the presence of gestures at an earlier stage than post-completion for providing real time user experience. To achieve this, it is important to recognize the progression of the gesture across different stages so that appropriate responses can be triggered on reaching the desired execution stage. To address this, we propose a simple yet effective multi-task learning framework which models the progression of the gesture along with frame level recognition. The proposed framework recognizes the gestures at an early stage with high precision and also achieves state-of-the-art recognition accuracy of 87.8% which is closer to human accuracy of 88.4% on the NVIDIA gesture dataset in the offline configuration and advances the state-of-the-art by more than 4%. We also introduce tightly segmented annotations for the NVIDIA gesture dataset and setup a strong baseline for gesture localization for this dataset. We also evaluate our framework on the Montalbano dataset and report competitive results.
