人間とロボットのコラボレーションは、人工知能(AI)の重要な研究トピックであり、研究者が認知AIシステムを考案できるようにし、ユーザーがロボットと対話するための直感的な手段を提供します。注目すべきは、コミュニケーションが中心的な役割を果たしていることです。今日まで、具体化されたエージェントナビゲーションの以前の研究は、人間の言語が自然言語での指示によってコミュニケーションを容易にすることを示しただけです。それにもかかわらず、他の多くの形式のコミュニケーションは未踏のままです。実際、人間のコミュニケーションはジェスチャから始まり、多くの場合、ポインティングジェスチャで「そこに行く」などのマルチモーダルキューを介して配信されます。ギャップを埋め、具体化されたエージェントナビゲーションのコミュニケーションの欠落している次元を埋めるために、口頭の手がかりの代わりにコミュニケーションインターフェイスとしてジェスチャーを使用することの効果を調査することを提案します。具体的には、AI2-THORプラットフォームに基づいて、Ges-THORという名前のVRベースの3Dシミュレーション環境を開発します。この仮想環境では、人間のプレーヤーが同じ仮想シーンに配置され、ジェスチャーのみを使用して人工エージェントを羊飼いにします。エージェントは、セマンティクスが不明な自然なジェスチャーによって導かれるナビゲーションの問題を解決するように任務を負っています。人間のジェスチャーの多様性と多様性のため、事前定義されたジェスチャーは使用しません。自然なジェスチャーのセマンティクスを学習することは、ナビゲーションタスクを学習するために相互に有益であると主張します。つまり、コミュニケーションを学び、コミュニケーションを学びます。一連の実験では、事前定義されたセマンティクスがなくても、人間のジェスチャーの手がかりが、具体化されたエージェントのオブジェクト目標ナビゲーションを改善し、さまざまな最先端の方法よりも優れていることを示します。
Human-robot collaboration is an essential research topic in artificial intelligence (AI), enabling researchers to devise cognitive AI systems and affords an intuitive means for users to interact with the robot. Of note, communication plays a central role. To date, prior studies in embodied agent navigation have only demonstrated that human languages facilitate communication by instructions in natural languages. Nevertheless, a plethora of other forms of communication is left unexplored. In fact, human communication originated in gestures and oftentimes is delivered through multimodal cues, e.g. "go there" with a pointing gesture. To bridge the gap and fill in the missing dimension of communication in embodied agent navigation, we propose investigating the effects of using gestures as the communicative interface instead of verbal cues. Specifically, we develop a VR-based 3D simulation environment, named Ges-THOR, based on AI2-THOR platform. In this virtual environment, a human player is placed in the same virtual scene and shepherds the artificial agent using only gestures. The agent is tasked to solve the navigation problem guided by natural gestures with unknown semantics; we do not use any predefined gestures due to the diversity and versatile nature of human gestures. We argue that learning the semantics of natural gestures is mutually beneficial to learning the navigation task--learn to communicate and communicate to learn. In a series of experiments, we demonstrate that human gesture cues, even without predefined semantics, improve the object-goal navigation for an embodied agent, outperforming various state-of-the-art methods.