arXiv reaDer
MIDAS:自然な眼球運動パターンからの深層学習による人間の行動意図予測
MIDAS: Deep learning human action intention prediction from natural eye movement patterns
眼球運動は、人間の脳の注意メカニズムへの窓として長い間研究されており、斬新なスタイルのヒューマンマシンインターフェースとしてアクセスできるようになっています。しかし、私たちが見つめているものすべてが、私たちがやりとりしたいものであるとは限りません。これは、視線インターフェイスのMidasTouch問題として知られています。 Midas Touchの問題を克服するために、現在のインターフェースは自然な視線の手がかりに依存するのではなく、滞留時間または視線ジェスチャを使用する傾向があります。ここでは、自然な視線の手がかりのみに基づいて、オブジェクト操作タスクに対する人間の意図をデコードするための完全にデータ駆動型のアプローチを紹介します。 16人の参加者に、目の前のテーブルにあるさまざまなオブジェクトに対して実行する操作および検査タスクを与えるデータ収集実験を実行します。被験者の目の動きは、参加者が自由に頭を動かしてシーンを見つめることができるウェアラブルアイトラッカーを使用して記録されます。畳み込みニューラルネットワークモデルであるSemanticFoveaを使用して、シーン内のオブジェクトと、すべてのフレームでの視線トレースとの関係を取得します。次に、データを評価し、意図予測のための分類タスクをモデル化するいくつかの方法を検討します。私たちの評価は、意図予測がデータの素朴な結果ではなく、視線の手がかりの非線形の時間的処理に依存していることを示しています。タスクを時系列分類問題としてモデル化し、意図をデコードするための双方向の長短期記憶(LSTM)ネットワークアーキテクチャを設計します。私たちの結果は、91.9%の精度で、純粋に自然な視線の手がかりとオブジェクトの相対位置から人間の動きの意図をデコードできることを示しています。私たちの仕事は、人間と機械の相互作用のためのゼロUIインターフェースとしての自然な視線の実現可能性を示しています。つまり、ユーザーは自然に行動するだけでよく、インターフェース自体と相互作用したり、自然な眼球運動パターンから逸脱したりする必要はありません。
Eye movements have long been studied as a window into the attentional mechanisms of the human brain and made accessible as novelty style human-machine interfaces. However, not everything that we gaze upon, is something we want to interact with; this is known as the Midas Touch problem for gaze interfaces. To overcome the Midas Touch problem, present interfaces tend not to rely on natural gaze cues, but rather use dwell time or gaze gestures. Here we present an entirely data-driven approach to decode human intention for object manipulation tasks based solely on natural gaze cues. We run data collection experiments where 16 participants are given manipulation and inspection tasks to be performed on various objects on a table in front of them. The subjects' eye movements are recorded using wearable eye-trackers allowing the participants to freely move their head and gaze upon the scene. We use our Semantic Fovea, a convolutional neural network model to obtain the objects in the scene and their relation to gaze traces at every frame. We then evaluate the data and examine several ways to model the classification task for intention prediction. Our evaluation shows that intention prediction is not a naive result of the data, but rather relies on non-linear temporal processing of gaze cues. We model the task as a time series classification problem and design a bidirectional Long-Short-Term-Memory (LSTM) network architecture to decode intentions. Our results show that we can decode human intention of motion purely from natural gaze cues and object relative position, with 91.9% accuracy. Our work demonstrates the feasibility of natural gaze as a Zero-UI interface for human-machine interaction, i.e., users will only need to act naturally, and do not need to interact with the interface itself or deviate from their natural eye movement patterns.
updated: Sat Jan 22 2022 21:52:42 GMT+0000 (UTC)
published: Sat Jan 22 2022 21:52:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト