オンライン学習環境への学生の関与を自動的に検出することは、学習の質を向上させ、パーソナライズされた学習教材を学生に提供するための重要な要素です。オンライン教室で生徒が示すさまざまなレベルの関与は、空間と時間の経過とともに起こる感情的な行動です。したがって、時空間分類問題として、ビデオからの学生の関与のレベルの検出を定式化します。この論文では、ビデオでの学生のエンゲージメントレベル検出のための新しいエンドツーエンドの残差ネットワーク(ResNet)と時間畳み込みネットワーク(TCN)ハイブリッドニューラルネットワークアーキテクチャを紹介します。 2D ResNetは、連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析して、エンゲージメントのレベルを検出します。ハイブリッドネットワークの空間的および時間的アームは、大規模な公的に利用可能な学生のエンゲージメント検出データセット、DAiSEEの生のビデオフレームで共同でトレーニングされます。このデータセットで、私たちの方法をいくつかの競合する学生のエンゲージメント検出方法と比較しました。 ResNet + TCNアーキテクチャは、他のすべての調査方法よりも優れており、最先端のエンゲージメントレベルの検出精度を向上させ、将来の研究のための新しいベースラインを設定します。
Automatic detection of students' engagement in online learning settings is a key element to improve the quality of learning and to deliver personalized learning materials to them. Varying levels of engagement exhibited by students in an online classroom is an affective behavior that takes place over space and time. Therefore, we formulate detecting levels of students' engagement from videos as a spatio-temporal classification problem. In this paper, we present a novel end-to-end Residual Network (ResNet) and Temporal Convolutional Network (TCN) hybrid neural network architecture for students' engagement level detection in videos. The 2D ResNet extracts spatial features from consecutive video frames, and the TCN analyzes the temporal changes in video frames to detect the level of engagement. The spatial and temporal arms of the hybrid network are jointly trained on raw video frames of a large publicly available students' engagement detection dataset, DAiSEE. We compared our method with several competing students' engagement detection methods on this dataset. The ResNet+TCN architecture outperforms all other studied methods, improves the state-of-the-art engagement level detection accuracy, and sets a new baseline for future research.