近年、コンピュータービジョンの研究の進歩により、人間とコンピューターの相互作用(HCI)の手段として、フリーハンドジェスチャーが検討されています。改善された音声処理技術とともに、自然なマルチモーダルHCIへの重要なステップです。ただし、マルチモーダルフレームワークに事前定義されていない連続ジェスチャを含めることは難しい問題です。この論文では、2Dディスプレイコントロールのコンテキストでマルチモーダル言語のパターンを研究するための構造化アプローチを提案します。観察可能な運動学的プリミティブから言語構造に関連するセマンティクスまでのジェスチャーの体系的な分析を検討します。提案された共言語ジェスチャのセマンティック分類では、時空間的deixisに基づいて6つのカテゴリが区別されます。インタラクティブテストベッド(iMAP)の開発に使用されたジェスチャと音声の統合のための計算フレームワークの進化について説明します。テストベッドにより、HCIのナラティブモードで、適切な非シーケンシャルなマルチモーダルパターンを引き出すことができました。実施されたユーザー調査は、セマンティックマッピングにおけるジェスチャとスピーチの部分の時間的アライメントを考慮することの重要性を示しています。さらに、ジェスチャ/音声生成の共起分析は、字句レベルでのジェスチャの構文編成を示唆しています。
In recent years because of the advances in computer vision research, free hand gestures have been explored as means of human-computer interaction (HCI). Together with improved speech processing technology it is an important step toward natural multimodal HCI. However, inclusion of non-predefined continuous gestures into a multimodal framework is a challenging problem. In this paper, we propose a structured approach for studying patterns of multimodal language in the context of a 2D-display control. We consider systematic analysis of gestures from observable kinematical primitives to their semantics as pertinent to a linguistic structure. Proposed semantic classification of co-verbal gestures distinguishes six categories based on their spatio-temporal deixis. We discuss evolution of a computational framework for gesture and speech integration which was used to develop an interactive testbed (iMAP). The testbed enabled elicitation of adequate, non-sequential, multimodal patterns in a narrative mode of HCI. Conducted user studies illustrate significance of accounting for the temporal alignment of gesture and speech parts in semantic mapping. Furthermore, co-occurrence analysis of gesture/speech production suggests syntactic organization of gestures at the lexical level.