人間の会話中の感情や感情表現の変化や変動を指す感情ダイナミクスを正確にモデル化することは、人間の相互作用を理解するために非常に重要です。感情のダイナミクスを分析することで、人々がどのようにコミュニケーションし、さまざまな状況に反応し、関係を形成するかについて洞察を得ることができます。ただし、感情のダイナミクスのモデリングは、対人関係の複雑で微妙な性質、状況、感情の表示に影響を与えるその他の要因などの文脈上の要因により困難です。この課題に対処するために、言語的および非言語的な手がかりを識別し、利用する大規模な言語モデルを使用して、感情のダイナミクス (個人内および対人的影響) を明示的にモデル化できるクロスパーソン メモリ トランスフォーマー (CPM-T) フレームワークを提案します。事前に訓練された知識を活用し、口頭で推論を実行します。 CPM-T フレームワークは、会話ウィンドウ内のコンテキストを保存および更新するためのメモリ モジュールを維持し、モデルが会話の前半部分と後半部分の間の依存関係をキャプチャできるようにします。さらに、私たちのフレームワークは、クロスモーダルな注意を採用して、マルチモダリティからの情報を効果的に調整し、クロスパーソンの注意を活用して、複数の当事者間のやり取りでの行動を調整します。私たちは、共同関与、信頼関係、人間の信念の予測タスク用に、公開されている 3 つのデータセットを使用して、アプローチの有効性と一般化可能性を評価します。注目すべきことに、CPM-T フレームワークは平均 F1 スコアでベースライン モデルをそれぞれ最大 7.3%、9.3%、2.0% 上回っています。最後に、多峰性の時間的挙動に関するアブレーション研究を通じて、フレームワーク内の各コンポーネントの重要性を実証します。
Accurately modeling affect dynamics, which refers to the changes and fluctuations in emotions and affective displays during human conversations, is crucial for understanding human interactions. By analyzing affect dynamics, we can gain insights into how people communicate, respond to different situations, and form relationships. However, modeling affect dynamics is challenging due to contextual factors, such as the complex and nuanced nature of interpersonal relationships, the situation, and other factors that influence affective displays. To address this challenge, we propose a Cross-person Memory Transformer (CPM-T) framework which is able to explicitly model affective dynamics (intrapersonal and interpersonal influences) by identifying verbal and non-verbal cues, and with a large language model to utilize the pre-trained knowledge and perform verbal reasoning. The CPM-T framework maintains memory modules to store and update the contexts within the conversation window, enabling the model to capture dependencies between earlier and later parts of a conversation. Additionally, our framework employs cross-modal attention to effectively align information from multi-modalities and leverage cross-person attention to align behaviors in multi-party interactions. We evaluate the effectiveness and generalizability of our approach on three publicly available datasets for joint engagement, rapport, and human beliefs prediction tasks. Remarkably, the CPM-T framework outperforms baseline models in average F1-scores by up to 7.3%, 9.3%, and 2.0% respectively. Finally, we demonstrate the importance of each component in the framework via ablation studies with respect to multimodal temporal behavior.