今日のユビキタステクノロジーの大規模な進歩により、新しい革新的な機能を提供し、新しい人間とコンピュータの相互作用に関する研究を刺激するために、新しい普及した方法が実践されています。本稿では、スマートフォンの内蔵スピーカーとマイクを活用したハンドジェスチャ認識手法を紹介します。提案されたシステムは、スマートフォンのステレオスピーカーから超音波ソナーベースの信号(聞き取れない音)を発し、それがスマートフォンのマイクによって受信され、ハンドジェスチャ認識のために畳み込みニューラルネットワーク(CNN)を介して処理されます。検出精度を向上させるためにデータ拡張技術が提案され、3つのデュアルチャネル入力融合法が比較されます。最初の方法は、デュアルチャネルオーディオを単一の入力スペクトログラム画像としてマージします。 2番目の方法は、デュアルチャネルスペクトログラムを連結することによって早期融合を採用します。 3番目の方法では、2つの対流入力ブランチで各デュアルチャネルスペクトログラムを処理し、最後のレイヤーで出力をマージすることで、レイトフュージョンを採用します。私たちの実験結果は、ベースラインとして93.58%の精度で、公開されているデータセットに提示された6つのジェスチャの有望な検出精度を示しています。
Due to the mass advancement in ubiquitous technologies nowadays, new pervasive methods have come into the practice to provide new innovative features and stimulate the research on new human-computer interactions. This paper presents a hand gesture recognition method that utilizes the smartphone's built-in speakers and microphones. The proposed system emits an ultrasonic sonar-based signal (inaudible sound) from the smartphone's stereo speakers, which is then received by the smartphone's microphone and processed via a Convolutional Neural Network (CNN) for Hand Gesture Recognition. Data augmentation techniques are proposed to improve the detection accuracy and three dual-channel input fusion methods are compared. The first method merges the dual-channel audio as a single input spectrogram image. The second method adopts early fusion by concatenating the dual-channel spectrograms. The third method adopts late fusion by having two convectional input branches processing each of the dual-channel spectrograms and then the outputs are merged by the last layers. Our experimental results demonstrate a promising detection accuracy for the six gestures presented in our publicly available dataset with an accuracy of 93.58% as a baseline.