arXiv reaDer
Towards More Realistic Human-Robot Conversation: A Seq2Seq-based Body Gesture Interaction System
 この論文では、インテリジェントロボットが人間とコミュニケーションしながらリアルな身体ジェスチャーを発揮できるようにする新しいシステムを紹介します。提案されるシステムは、対応する会話フェーズで使用されるリスニングモデルとスピーキングモデルで構成されます。両方のモデルは、シーケンスツーシーケンス(seq2seq)アーキテクチャから採用され、12個の上半身のキーポイントの動きによって表されるボディジェスチャを合成します。抽出されたすべての2Dキーポイントは、最初に3D変換され、次に無関係な情報を破棄するために回転および正規化されます。 Youtubeからの人間の会話の実質的なビデオが収集され、リスニングモデルとスピーキングモデルを個別にトレーニングするために前処理されます。その後、テストデータセットの平均二乗誤差(MSE)およびコサイン類似性のメトリックを使用して2つのモデルが評価されます。チューニングされたシステムは、仮想アバターと物理的なヒューマノイドロボットであるPepperを駆動するために実装されており、実際の方法の会話相互作用能力の改善を実証しています。
This paper presents a novel system that enables intelligent robots to exhibit realistic body gestures while communicating with humans. The proposed system consists of a listening model and a speaking model used in corresponding conversational phases. Both models are adapted from the sequence-to-sequence (seq2seq) architecture to synthesize body gestures represented by the movements of twelve upper-body keypoints. All the extracted 2D keypoints are firstly 3D-transformed, then rotated and normalized to discard irrelevant information. Substantial videos of human conversations from Youtube are collected and preprocessed to train the listening and speaking models separately, after which the two models are evaluated using metrics of mean squared error (MSE) and cosine similarity on the test dataset. The tuned system is implemented to drive a virtual avatar as well as Pepper, a physical humanoid robot, to demonstrate the improvement on conversational interaction abilities of our method in practice.
updated: Fri Nov 15 2019 06:36:28 GMT+0000 (UTC)
published: Sun May 05 2019 09:53:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト