arXiv reaDer
MIR-GAN: オーディオビジュアル音声認識のための敵対的ネットワークを使用したフレームレベルのモダリティ不変表現の洗練
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition
視聴覚音声認識 (AVSR) は、人間の音声を理解するためにマルチモーダル信号を活用することで、最近研究への関心が高まっています。このタスクに対処する主流のアプローチは、マルチモダリティ融合および表現学習のための洗練されたアーキテクチャと技術を開発しました。しかし、異なるモダリティの自然な不均一性により、それらの表現間に分布のギャップが生じ、それらを融合することが困難になります。この論文では、モダリティ間のギャップを埋めるために、モダリティ間で共有される表現を学習することを目的としています。センチメント分析などの他のマルチモーダルタスクに対する既存の同様の手法とは異なり、AVSR のシーケンス間のタスク設定を考慮した時間的な文脈依存性に焦点を当てます。特に、フレームレベルのモダリティ不変表現(MIR-GAN)を改良するための敵対的ネットワークを提案します。これは、モダリティ間の共通性を捉えて、その後のマルチモーダル融合プロセスを容易にします。公開ベンチマーク LRS3 および LRS2 での広範な実験により、私たちのアプローチが最先端のベンチマークよりも優れていることが示されています。
Audio-visual speech recognition (AVSR) attracts a surge of research interest recently by leveraging multimodal signals to understand human speech. Mainstream approaches addressing this task have developed sophisticated architectures and techniques for multi-modality fusion and representation learning. However, the natural heterogeneity of different modalities causes distribution gap between their representations, making it challenging to fuse them. In this paper, we aim to learn the shared representations across modalities to bridge their gap. Different from existing similar methods on other multimodal tasks like sentiment analysis, we focus on the temporal contextual dependencies considering the sequence-to-sequence task setting of AVSR. In particular, we propose an adversarial network to refine frame-level modality-invariant representations (MIR-GAN), which captures the commonality across modalities to ease the subsequent multimodal fusion process. Extensive experiments on public benchmarks LRS3 and LRS2 show that our approach outperforms the state-of-the-arts.
updated: Sun Jun 18 2023 14:02:20 GMT+0000 (UTC)
published: Sun Jun 18 2023 14:02:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト