クロスリンガル音声感情認識は、実用的なアプリケーションにとって重要なタスクです。自動音声感情認識システムのパフォーマンスは、コーパスクロスシナリオ、特に複数の言語、またはデータが限られている、またはデータが利用できないウルドゥー語などの以前には見えなかった言語を含むシナリオで低下します。この研究では、ウルドゥー語の言語間感情認識の問題を調査し、URDUに貢献します。これは、初めての自発的なウルドゥー語音声感情データベースです。評価はウルドゥー語に対して3つの異なる西洋言語を使用して実行され、さまざまな可能なシナリオでの実験結果は、そのような限定された言語向けのより適応的な感情認識システムを設計するためのさまざまな興味深い側面を示唆しています。結果として、複数の言語のトレーニングインスタンスを選択すると、ベースラインに匹敵する結果が得られ、テスト言語データの一部が拡張され、トレーニングは音声感情認識の精度を高めるのに役立ちます。 URDUデータは、さらなる研究のために公開されています。
Cross-lingual speech emotion recognition is an important task for practical applications. The performance of automatic speech emotion recognition systems degrades in cross-corpus scenarios, particularly in scenarios involving multiple languages or a previously unseen language such as Urdu for which limited or no data is available. In this study, we investigate the problem of cross-lingual emotion recognition for Urdu language and contribute URDU---the first ever spontaneous Urdu-language speech emotion database. Evaluations are performed using three different Western languages against Urdu and experimental results on different possible scenarios suggest various interesting aspects for designing more adaptive emotion recognition system for such limited languages. In results, selecting training instances of multiple languages can deliver comparable results to baseline and augmentation a fraction of testing language data while training can help to boost accuracy for speech emotion recognition. URDU data is publicly available for further research.