arXiv reaDer
共学習環境での会話検出
Talking Detection In Collaborative Learning Environments
共学習ビデオで会話活動を検出する問題を研究します。私たちのアプローチは、頭の検出とオプティカルフローベクトルの対数の大きさの投影を使用して、複雑な3Dアクティビティ分類システムをトレーニングする必要なしに、問題を小さな投影画像の単純な分類に減らします。小さな投影画像は、標準的な分類器の単純な多数決を使用して簡単に分類されます。会話検出の場合、提案されたアプローチは、単一アクティビティシステムよりも大幅に優れていることが示されています。全体的な精度は59%ですが、Temporal Segment Network(TSN)では42%、Convolutional 3D(C3D)では45%です。さらに、私たちの方法は、話者自身を検出しながら、複数の話者からの複数の話しているインスタンスを検出することができます。
We study the problem of detecting talking activities in collaborative learning videos. Our approach uses head detection and projections of the log-magnitude of optical flow vectors to reduce the problem to a simple classification of small projection images without the need for training complex, 3-D activity classification systems. The small projection images are then easily classified using a simple majority vote of standard classifiers. For talking detection, our proposed approach is shown to significantly outperform single activity systems. We have an overall accuracy of 59% compared to 42% for Temporal Segment Network (TSN) and 45% for Convolutional 3D (C3D). In addition, our method is able to detect multiple talking instances from multiple speakers, while also detecting the speakers themselves.
updated: Thu Oct 14 2021 18:13:28 GMT+0000 (UTC)
published: Thu Oct 14 2021 18:13:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト