マルチモーダル学習は、新興でありながら挑戦的な研究分野です。この論文では、会話ビデオと画像とテキストのペアからのマルチモーダルな皮肉とユーモアの検出を扱います。モダリティ全体に反映されるつかの間のアクションであるため、文献ではこのタスクに大きなデータセットが利用できないため、皮肉の検出は困難です。したがって、トレーニングサンプルの数が限られている、リソースに制約のあるトレーニングに主に焦点を当てます。この目的のために、我々は、新しいマルチモーダル学習システム、MuLOT(最適なトランスポートを使用したマルチモーダル学習)を提案します。これは、自己注意を利用して、モーダル内対応とクロスモーダル対応のための最適なトランスポートを活用します。最後に、モダリティはマルチモーダル注意融合と組み合わされて、モダリティ間の相互依存関係をキャプチャします。 MUStARD(ビデオ、オーディオ、テキスト)、UR-FUNNY(ビデオ、オーディオ、テキスト)、MST(画像、テキスト)の3つのベンチマークデータセットでマルチモーダル皮肉とユーモア検出のアプローチをテストし、2.1%、1.54%、および最新技術に比べて2.34%の精度の向上。
Multimodal learning is an emerging yet challenging research area. In this paper, we deal with multimodal sarcasm and humor detection from conversational videos and image-text pairs. Being a fleeting action, which is reflected across the modalities, sarcasm detection is challenging since large datasets are not available for this task in the literature. Therefore, we primarily focus on resource-constrained training, where the number of training samples is limited. To this end, we propose a novel multimodal learning system, MuLOT (Multimodal Learning using Optimal Transport), which utilizes self-attention to exploit intra-modal correspondence and optimal transport for cross-modal correspondence. Finally, the modalities are combined with multimodal attention fusion to capture the inter-dependencies across modalities. We test our approach for multimodal sarcasm and humor detection on three benchmark datasets - MUStARD (video, audio, text), UR-FUNNY (video, audio, text), MST (image, text) and obtain 2.1%, 1.54%, and 2.34% accuracy improvements over state-of-the-art.