arXiv reaDer
OLKAVS: オープンな大規模韓国語視聴覚音声データセット
OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset
マルチモーダルな方法で音声を理解する人間に触発されて、さまざまな視聴覚データセットが構築されました。ただし、ほとんどの既存のデータセットは英語に焦点を当てており、データセットの準備中にさまざまな予測モデルとの依存関係を誘発し、少数のマルチビュー ビデオしかありません。制限を軽減するために、公開されている視聴覚音声データセットの中で最大の Open Large-scale Korean Audio-Visual Speech (OLKAVS) データセットを最近開発しました。このデータセットには、1,107 人の韓国語話者による 1,150 時間の書き起こし音声が含まれており、スタジオ設定では 9 つの異なる視点とさまざまな騒音状況が使用されています。また、オーディオビジュアル音声認識と読唇術の 2 つのタスクの事前トレーニング済みベースライン モデルも提供します。モデルに基づいて実験を行い、マルチモーダルおよびマルチビュー トレーニングの有効性を、ユニモーダルおよび正面ビューのみのトレーニングよりも検証しました。 OLKAVS データセットは、韓国語の音声認識、話者認識、発音レベルの分類、口の動きの分析など、より幅広い分野でマルチモーダルな研究を促進するものと期待しています。
Inspired by humans comprehending speech in a multi-modal manner, various audio-visual datasets have been constructed. However, most existing datasets focus on English, induce dependencies with various prediction models during dataset preparation, and have only a small number of multi-view videos. To mitigate the limitations, we recently developed the Open Large-scale Korean Audio-Visual Speech (OLKAVS) dataset, which is the largest among publicly available audio-visual speech datasets. The dataset contains 1,150 hours of transcribed audio from 1,107 Korean speakers in a studio setup with nine different viewpoints and various noise situations. We also provide the pre-trained baseline models for two tasks, audio-visual speech recognition and lip reading. We conducted experiments based on the models to verify the effectiveness of multi-modal and multi-view training over uni-modal and frontal-view-only training. We expect the OLKAVS dataset to facilitate multi-modal research in broader areas such as Korean speech recognition, speaker recognition, pronunciation level classification, and mouth motion analysis.
updated: Mon Jan 16 2023 11:40:50 GMT+0000 (UTC)
published: Mon Jan 16 2023 11:40:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト