この論文では、会話グループ、またはいわゆるFフォーメーションを自動的に識別するためのプロキシミクスとダイナミクスの使用を調査します。より正式には、2人からのウェアラブルセンサーデータがFフォーメーションメンバーシップを示すかどうかを自動的に識別することを目指しています。また、メンバーシップと、会話での役割(スピーカーまたはリスナー)に関連するペアに関するより詳細な情報を共同で検出する問題についても検討します。 1人あたり1つのウェアラブルセンサーから得られるバイナリの近接性と加速度を使用して、プロキシミクスとダイナミクスの概念を共同でモデル化します。実際の混合イベント中に収集された、公開されているMatchNMingleデータセットでアプローチをテストします。これらの2つのモダリティの融合は、独立して実行するよりもはるかに優れており、30秒のウィンドウからのデータを使用した場合に0.975のAUCを提供することがわかります。さらに、役割の検出に関する調査では、正確な検出のために各役割ペアに異なる時間分解能が必要であることが示されています。
In this paper, we investigate the use of proxemics and dynamics for automatically identifying conversing groups, or so-called F-formations. More formally we aim to automatically identify whether wearable sensor data coming from 2 people is indicative of F-formation membership. We also explore the problem of jointly detecting membership and more descriptive information about the pair relating to the role they take in the conversation (i.e. speaker or listener). We jointly model the concepts of proxemics and dynamics using binary proximity and acceleration obtained through a single wearable sensor per person. We test our approaches on the publicly available MatchNMingle dataset which was collected during real-life mingling events. We find out that fusion of these two modalities performs significantly better than them independently, providing an AUC of 0.975 when data from 30-second windows are used. Furthermore, our investigation into roles detection shows that each role pair requires a different time resolution for accurate detection.