arXiv reaDer
深層学習ベースの手振り認識システムとヒューマンマシンインターフェースの設計
Deep learning based Hand gesture recognition system and design of a Human-Machine Interface
この作業では、リアルタイムの手ジェスチャー認識システム ベースのヒューマン コンピューター インターフェイス (HCI) が提示されます。このシステムは、(1) 手の検出、(2) ジェスチャ セグメンテーション、(3) 5 つの事前トレーニング済み畳み込みニューラル ネットワーク モデル (CNN) とビジョン トランスフォーマー (ViT) の使用、(4) インタラクティブな人間の構築の 6 つの段階で構成されています。 (5) ジェスチャ制御仮想マウスの開発 (6) カルマン フィルターを使用した手の位置の推定 (ポインターの動きの滑らかさが改善されたことに基づく)。私たちの作業では、5 つの事前トレーニング済み CNN (VGG16、VGG19、ResNet50、ResNet101、および Inception-V1) モデルと ViT を使用して、手のジェスチャー画像を分類しました。モデルの検証には、2 つのマルチクラス データセット (1 つはパブリック、もう 1 つはカスタム) が使用されています。モデルのパフォーマンスを考慮すると、Inception-V1 は、精度、精度、再現率、および F スコア値の点で、他の 4 つの CNN モデルおよび ViT と比較して、より優れた分類パフォーマンスを大幅に示していることがわかります。また、このシステムを拡張して、いくつかのデスクトップ アプリケーション (VLC プレーヤー、オーディオ プレーヤー、ファイル管理、2D Super-Mario-Bros ゲームのプレイなど) をリアルタイム シナリオでさまざまなカスタマイズされたジェスチャー コマンドで制御できるようにしました。このシステムの平均速度は 25 fps (フレーム/秒) に達しており、リアルタイム シナリオの要件を満たしています。提案されたジェスチャ制御システムのパフォーマンスは、リアルタイムに適した各制御のミリ秒単位の平均応答時間を取得しました。このモデル (プロトタイプ) は、デスクトップを操作する身体障害者に役立ちます。
In this work, a real-time hand gesture recognition system-based human-computer interface (HCI) is presented. The system consists of six stages: (1) hand detection, (2) gesture segmentation, (3) use of five pre-trained convolutional neural network models (CNN) and vision transformer (ViT), (4) building an interactive human-machine interface (HMI), (5) development of a gesture-controlled virtual mouse, (6) use of Kalman filter to estimate the hand position, based on that the smoothness of the motion of pointer is improved. In our work, five pre-trained CNN (VGG16, VGG19, ResNet50, ResNet101, and Inception-V1) models and ViT have been employed to classify hand gesture images. Two multi-class datasets (one public and one custom) have been used to validate the models. Considering the model's performances, it is observed that Inception-V1 has significantly shown a better classification performance compared to the other four CNN models and ViT in terms of accuracy, precision, recall, and F-score values. We have also expanded this system to control some desktop applications (such as VLC player, audio player, file management, playing 2D Super-Mario-Bros game, etc.) with different customized gesture commands in real-time scenarios. The average speed of this system has reached 25 fps (frames per second), which meets the requirements for the real-time scenario. Performance of the proposed gesture control system obtained the average response time in milisecond for each control which makes it suitable for real-time. This model (prototype) will benefit physically disabled people interacting with desktops.
updated: Mon Jan 16 2023 13:14:52 GMT+0000 (UTC)
published: Thu Jul 07 2022 06:50:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト