最近、音声認識と自然言語処理の分野で途方もない研究成果がありました。これは、wav2vec2.0、Wav2vecU、WavBERT、HuBERTなど、より優れた表現学習と高度な情報キャプチャを提供する、十分に開発された多層ディープラーニングパラダイムによるものです。このようなパラダイムは、ラベルのない何百ものデータで実行され、特定のタスク用に小さなデータセットで微調整されます。この論文では、アラビア語の音声対話のための深層学習で構築された感情認識モデルを紹介します。開発されたモデルは、wav2vec2.0とHuBERTを含む最先端のオーディオ表現を採用しています。私たちのモデルの実験とパフォーマンスの結果は、以前の既知の結果を克服しています。
Recently, there have been tremendous research outcomes in the fields of speech recognition and natural language processing. This is due to the well-developed multi-layers deep learning paradigms such as wav2vec2.0, Wav2vecU, WavBERT, and HuBERT that provide better representation learning and high information capturing. Such paradigms run on hundreds of unlabeled data, then fine-tuned on a small dataset for specific tasks. This paper introduces a deep learning constructed emotional recognition model for Arabic speech dialogues. The developed model employs the state of the art audio representations include wav2vec2.0 and HuBERT. The experiment and performance results of our model overcome the previous known outcomes.