笑いは、最も明白な喜びのシグナルの 1 つと考えられています。笑いはマルチモーダル現象としてよく認識されていますが、最も一般的には笑い声を感知することによって検出されます。笑いの体の動きを介して、ビデオなどの他のモダリティから注釈を付けた場合、笑いの認識と注釈がどのように異なるかは不明です。この論文では、音声のみ、ビデオのみ(全身の動きの情報を含む)、または視聴覚モダリティがアノテーターに利用可能である場合に、笑いにアノテートできるかどうか、またどの程度うまくアノテートできるかを尋ねることによって、この方向への第一歩を踏み出します。笑いの注釈がモダリティ間で一致しているかどうかを尋ね、モダリティのラベル付けが機械学習モデルのパフォーマンスに与える影響を比較します。笑いの検出、強度の推定、およびセグメンテーションの注釈とモデルを比較します。これは、以前の笑いの研究で一般的な 3 つのタスクです。 48 人のアノテーターから取得した 4000 を超えるアノテーションを分析した結果、笑いの認識における不一致と、モダリティ間の笑いの強さの証拠が明らかになりました。統合された視聴覚参照注釈に対する注釈のさらなる分析により、音声条件と比較した場合、ビデオの再現率は平均して低いことが明らかになりましたが、笑いのサンプルの強度とともに増加する傾向がありました。私たちの機械学習実験では、入力モダリティ、トレーニング ラベル モダリティ、およびテスト ラベル モダリティのさまざまな組み合わせについて、最先端のユニモーダル (オーディオ ベース、ビデオ ベース、アクセラレーション ベース) モデルとマルチモーダル モデルのパフォーマンスを比較しました。ビデオ入力と加速度入力を備えたモデルは、トレーニング ラベル モダリティに関係なく同様のパフォーマンスを示しました。これは、評価者間の合意が低いにもかかわらず、ビデオ取得ラベルを使用して体の動きから笑いを検出するモデルをトレーニングすることが完全に適切である可能性があることを示唆しています。
Laughter is considered one of the most overt signals of joy. Laughter is well-recognized as a multimodal phenomenon but is most commonly detected by sensing the sound of laughter. It is unclear how perception and annotation of laughter differ when annotated from other modalities like video, via the body movements of laughter. In this paper we take a first step in this direction by asking if and how well laughter can be annotated when only audio, only video (containing full body movement information) or audiovisual modalities are available to annotators. We ask whether annotations of laughter are congruent across modalities, and compare the effect that labeling modality has on machine learning model performance. We compare annotations and models for laughter detection, intensity estimation, and segmentation, three tasks common in previous studies of laughter. Our analysis of more than 4000 annotations acquired from 48 annotators revealed evidence for incongruity in the perception of laughter, and its intensity between modalities. Further analysis of annotations against consolidated audiovisual reference annotations revealed that recall was lower on average for video when compared to the audio condition, but tended to increase with the intensity of the laughter samples. Our machine learning experiments compared the performance of state-of-the-art unimodal (audio-based, video-based and acceleration-based) and multi-modal models for different combinations of input modalities, training label modality, and testing label modality. Models with video and acceleration inputs had similar performance regardless of training label modality, suggesting that it may be entirely appropriate to train models for laughter detection from body movements using video-acquired labels, despite their lower inter-rater agreement.