Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation
人間と人間の二者関係における顔の反応の生成は複雑であり、話者の行動には複数の顔の反応が適切である可能性があるため、コンテキストに大きく依存します。これは、トレーニング戦略により、各入力話者の動作から特定の (複数ではない) 顔の反応を再現するようにモデルを強制する既存の機械学習 (ML) 手法に課題をもたらしました。本稿では、1対多マッピングの顔反応生成問題を1対1マッピング問題として再定式化する、初の複数適切な顔反応生成フレームワークを提案する。これは、複数の異なる適切な顔反応の代わりに、リスナーの適切な顔反応の分布の生成を考慮することによってこの問題にアプローチすることを意味します。つまり、「多くの」適切な顔反応ラベルがトレーニング中に「1 つの」分布ラベルとして要約されます。私たちのモデルは、知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。モーター プロセッサは、新しい可逆多次元エッジ グラフ ニューラル ネットワーク (REGNN) を使用して実装されています。これにより、トレーニング プロセス中に適切な実際の顔の反応の分布を取得できるようになり、適切な顔の反応の分布を予測するように認知プロセッサをトレーニングできるようになります。推論段階で、REGNN はこの分布を入力として使用して、適切な顔の反応をデコードします。実験結果は、私たちのアプローチが、より適切で現実的で同期した顔の反応を生成する点で既存のモデルよりも優れていることを示しています。パフォーマンスの向上は、提案された適切な顔反応分布学習戦略と REGNN の使用に主に起因します。コードは で入手できます。
Generating facial reactions in a human-human dyadic interaction is complex and highly dependent on the context since more than one facial reactions can be appropriate for the speaker's behaviour. This has challenged existing machine learning (ML) methods, whose training strategies enforce models to reproduce a specific (not multiple) facial reaction from each input speaker behaviour. This paper proposes the first multiple appropriate facial reaction generation framework that re-formulates the one-to-many mapping facial reaction generation problem as a one-to-one mapping problem. This means that we approach this problem by considering the generation of a distribution of the listener's appropriate facial reactions instead of multiple different appropriate facial reactions, i.e., 'many' appropriate facial reaction labels are summarised as 'one' distribution label during training. Our model consists of a perceptual processor, a cognitive processor, and a motor processor. The motor processor is implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network (REGNN). This allows us to obtain a distribution of appropriate real facial reactions during the training process, enabling the cognitive processor to be trained to predict the appropriate facial reaction distribution. At the inference stage, the REGNN decodes an appropriate facial reaction by using this distribution as input. Experimental results demonstrate that our approach outperforms existing models in generating more appropriate, realistic, and synchronized facial reactions. The improved performance is largely attributed to the proposed appropriate facial reaction distribution learning strategy and the use of a REGNN. The code is available at
updated: Thu Nov 16 2023 16:45:45 GMT+0000 (UTC)
published: Wed May 24 2023 15:56:26 GMT+0000 (UTC)
