この研究では、多感覚データ (つまり、色と深さ) を使用して、マルチモーダルな人間とロボットの相互作用のコンテキストで人間の行動を認識します。ここでは、iCub ロボットを使用して、20 個のオブジェクトに対して 4 つの異なるツールを使用して、人間のパートナーの事前定義されたアクションを観察しました。提案されたマルチモーダル アンサンブル学習は、3 つのカラー カメラと 1 つの深度センサーの相補的な特性を活用し、ほとんどの場合、単一のモダリティでトレーニングされたモデルと比較して認識精度を向上させることを示します。結果は、提案されたモデルが、パートナー固有の適応などの社会的タスクやコンテキスト行動理解などのマルチモーダル アクション認識を必要とする iCub ロボットに展開できることを示しています。
This study uses multisensory data (i.e., color and depth) to recognize human actions in the context of multimodal human-robot interaction. Here we employed the iCub robot to observe the predefined actions of the human partners by using four different tools on 20 objects. We show that the proposed multimodal ensemble learning leverages complementary characteristics of three color cameras and one depth sensor that improves, in most cases, recognition accuracy compared to the models trained with a single modality. The results indicate that the proposed models can be deployed on the iCub robot that requires multimodal action recognition, including social tasks such as partner-specific adaptation, and contextual behavior understanding, to mention a few.