arXiv reaDer
多人数ヒューマンロボットインタラクションのためのビデオ拡張技術を使用した共同関与分類
Joint Engagement Classification using Video Augmentation Techniques for Multi-person Human-robot Interaction
ソーシャル ロボットがユーザーのグループと直感的かつ相互的な方法で自律的に対話するには、感情理解機能が不可欠です。しかし、複数人の情動理解の難題は、各ユーザーの情動状態 (例えば、エンゲージメント) の正確な認識だけでなく、複雑なものとして提示されるメンバー間の情動相互作用 (例えば、共同エンゲージメント) の認識からも生じます。それらの間の微妙で非言語的な交換。ここでは、ディープ ラーニング フレームワークとさまざまなビデオ拡張技術を組み合わせることで、親子の共同関与を特定するための新しいハイブリッド フレームワークを紹介します。自宅でソーシャル ロボットと一緒に絵本を読んでいる親子のペアのデータセットを使用して、最初に 4 つのビデオ拡張技術 (General Aug、DeepFake、CutOut、および Mixed) を適用したデータセットを使用して、RGB フレームおよびスケルトン ベースの関節エンゲージメント認識モデルをトレーニングします。共同エンゲージメント分類のパフォーマンスを向上させるため。第二に、ロボットと親子の相互作用のコンテキストで訓練されたモデルの使用に関する実験結果を示します。第三に、学習したモデルの表現を評価するための行動ベースのメトリックを導入して、関節の関与を認識する際のモデルの解釈可能性を調査します。この作業は、大規模な公開データセットで事前にトレーニングされ、複数の人間とロボットの相互作用における影響認識のためのデータ拡張および視覚化技術で拡張された、エンドツーエンドのビデオ理解モデルの可能性を完全に解き放つための最初のステップとして機能します。野生。
Affect understanding capability is essential for social robots to autonomously interact with a group of users in an intuitive and reciprocal way. However, the challenge of multi-person affect understanding comes from not only the accurate perception of each user's affective state (e.g., engagement) but also the recognition of the affect interplay between the members (e.g., joint engagement) that presents as complex, but subtle, nonverbal exchanges between them. Here we present a novel hybrid framework for identifying a parent-child dyad's joint engagement by combining a deep learning framework with various video augmentation techniques. Using a dataset of parent-child dyads reading storybooks together with a social robot at home, we first train RGB frame- and skeleton-based joint engagement recognition models with four video augmentation techniques (General Aug, DeepFake, CutOut, and Mixed) applied datasets to improve joint engagement classification performance. Second, we demonstrate experimental results on the use of trained models in the robot-parent-child interaction context. Third, we introduce a behavior-based metric for evaluating the learned representation of the models to investigate the model interpretability when recognizing joint engagement. This work serves as the first step toward fully unlocking the potential of end-to-end video understanding models pre-trained on large public datasets and augmented with data augmentation and visualization techniques for affect recognition in the multi-person human-robot interaction in the wild.
updated: Wed Dec 28 2022 23:52:55 GMT+0000 (UTC)
published: Wed Dec 28 2022 23:52:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト