arXiv reaDer
EasyCom:ノイズの多い環境で簡単に通信するためのアルゴリズムをサポートする拡張現実データセット
EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments
プラットフォームとしての拡張現実(AR)は、カクテルパーティー効果の低減を促進する可能性があります。将来のARヘッドセットは、多くの異なるモダリティにまたがるセンサーのアレイからの情報を活用する可能性があります。ビームフォーミングや音声強調などのタスクに関する信号処理と機械学習アルゴリズムのトレーニングとテストには、高品質の代表的なデータが必要です。著者の知る限り、出版時点では、ノイズの多い環境で動的な動きと会話を伴う、同期された自己中心的なマルチチャネルオーディオとビデオを含む利用可能なデータセットはありません。この作業では、ARメガネ着用者の会話を改善するアプリケーションのアルゴリズムのトレーニングとテストに役立つ、5時間以上のマルチモーダルデータを含むデータセットについて説明、評価、リリースします。ベースラインメソッドの音声明瞭度、品質、および信号対雑音比の改善結果を提供し、テストされたすべてのメトリックにわたって改善を示します。私たちがリリースするデータセットには、ARメガネのエゴセントリックマルチチャンネルマイクアレイオーディオ、広視野RGBビデオ、音声ソースポーズ、ヘッドセットマイクオーディオ、注釈付き音声アクティビティ、音声文字起こし、ヘッドバウンディングボックス、音声のターゲットとソースの識別が含まれていますラベル。カクテルパーティー問題に対するマルチモーダルARソリューションの研究を促進するために、このデータセットを作成してリリースしています。
Augmented Reality (AR) as a platform has the potential to facilitate the reduction of the cocktail party effect. Future AR headsets could potentially leverage information from an array of sensors spanning many different modalities. Training and testing signal processing and machine learning algorithms on tasks such as beam-forming and speech enhancement require high quality representative data. To the best of the author's knowledge, as of publication there are no available datasets that contain synchronized egocentric multi-channel audio and video with dynamic movement and conversations in a noisy environment. In this work, we describe, evaluate and release a dataset that contains over 5 hours of multi-modal data useful for training and testing algorithms for the application of improving conversations for an AR glasses wearer. We provide speech intelligibility, quality and signal-to-noise ratio improvement results for a baseline method and show improvements across all tested metrics. The dataset we are releasing contains AR glasses egocentric multi-channel microphone array audio, wide field-of-view RGB video, speech source pose, headset microphone audio, annotated voice activity, speech transcriptions, head bounding boxes, target of speech and source identification labels. We have created and are releasing this dataset to facilitate research in multi-modal AR solutions to the cocktail party problem.
updated: Mon Oct 18 2021 22:37:53 GMT+0000 (UTC)
published: Fri Jul 09 2021 02:00:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト