ヘッドマウントディスプレイ(HMD)は、ポータブルでインタラクティブなディスプレイデバイスです。 5Gテクノロジーの開発により、将来的には汎用コンピューティングプラットフォームになる可能性があります。近年、HMD用のヒューマンコンピュータインタラクション(HCI)テクノロジーも大きな関心を集めています。ジェスチャと音声の追跡に加えて、相互作用の手段として人間の目を追跡することは非常に効果的です。この論文では、UnityEyesベースの2つの畳み込みニューラルネットワークモデル、UEGazeNetとUEGazeNet *を提案します。これらは、それぞれ低解像度と高解像度の入力画像に使用できます。これらのモデルは、視線軌跡(GT)を分類することで迅速な相互作用を実行でき、15人の個人から収集した10,200の「アイペインティングジェスチャ」のデータを含むGTgesturesデータセットが、視線追跡方法で確立されます。屋内と屋外の両方でパフォーマンスを評価しました。UEGazeNetは、最先端のネットワークの結果よりも52 \%と67 \%優れた結果を得ることができます。さまざまな視線追跡モデルを使用したGTgesturesデータセットの一般化可能性が評価され、96.71 \%の平均認識率がこの方法によって得られます。
A head-mounted display (HMD) is a portable and interactive display device. With the development of 5G technology, it may become a general-purpose computing platform in the future. Human-computer interaction (HCI) technology for HMDs has also been of significant interest in recent years. In addition to tracking gestures and speech, tracking human eyes as a means of interaction is highly effective. In this paper, we propose two UnityEyes-based convolutional neural network models, UEGazeNet and UEGazeNet*, which can be used for input images with low resolution and high resolution, respectively. These models can perform rapid interactions by classifying gaze trajectories (GTs), and a GTgestures dataset containing data for 10,200 "eye-painting gestures" collected from 15 individuals is established with our gaze-tracking method. We evaluated the performance both indoors and outdoors and the UEGazeNet can obtaine results 52\% and 67\% better than those of state-of-the-art networks. The generalizability of our GTgestures dataset using a variety of gaze-tracking models is evaluated, and an average recognition rate of 96.71\% is obtained by our method.