マルチモーダル感情分析は、言語、視覚、および音響のモダリティから表現される話者の感情を研究するコア研究領域です。マルチモーダル学習の中心的な課題は、これらのモダリティからの情報を処理して関連付けることができる共同表現を推測することです。ただし、既存の作業では、入力としてすべてのモダリティを必要とすることにより、ジョイント表現を学習します。その結果、学習した表現は、テスト時にノイズの多いモダリティまたは欠落したモダリティに敏感になる場合があります。機械翻訳におけるシーケンスツーシーケンス(Seq2Seq)モデルの最近の成功により、テスト時にすべての入力モダリティを必要としないかもしれないジョイント表現を学習する新しい方法を探る機会があります。本論文では、モダリティ間を翻訳することにより、ロバストなジョイント表現を学習する方法を提案します。この方法は、ソースからターゲットモダリティへの変換が、ソースモダリティのみを入力として使用してジョイント表現を学習する方法を提供するという重要な洞察に基づいています。私たちは、モダリティの翻訳にサイクル一貫性の損失を加えて、すべてのモダリティからの最大の情報がジョイント表現で保持されるようにします。翻訳モデルがペアのマルチモーダルデータでトレーニングされると、最終的な感情予測のためにテスト時にソースモダリティからのデータのみが必要になります。これにより、モデルが摂動や他のモダリティの情報の欠落から確実に堅牢になります。翻訳と予測を組み合わせた目的でモデルをトレーニングし、CMU-MOSI、ICT-MMMO、YouTubeなどのマルチモーダル感情分析データセットで新しい最先端の結果を達成します。追加の実験は、モデルがより多くの入力モダリティでますます差別的なジョイント表現を学習する一方で、欠落または摂動モダリティに対するロバスト性を維持することを示しています。
Multimodal sentiment analysis is a core research area that studies speaker sentiment expressed from the language, visual, and acoustic modalities. The central challenge in multimodal learning involves inferring joint representations that can process and relate information from these modalities. However, existing work learns joint representations by requiring all modalities as input and as a result, the learned representations may be sensitive to noisy or missing modalities at test time. With the recent success of sequence to sequence (Seq2Seq) models in machine translation, there is an opportunity to explore new ways of learning joint representations that may not require all input modalities at test time. In this paper, we propose a method to learn robust joint representations by translating between modalities. Our method is based on the key insight that translation from a source to a target modality provides a method of learning joint representations using only the source modality as input. We augment modality translations with a cycle consistency loss to ensure that our joint representations retain maximal information from all modalities. Once our translation model is trained with paired multimodal data, we only need data from the source modality at test time for final sentiment prediction. This ensures that our model remains robust from perturbations or missing information in the other modalities. We train our model with a coupled translation-prediction objective and it achieves new state-of-the-art results on multimodal sentiment analysis datasets: CMU-MOSI, ICT-MMMO, and YouTube. Additional experiments show that our model learns increasingly discriminative joint representations with more input modalities while maintaining robustness to missing or perturbed modalities.