arXiv reaDer
視覚的音声活動検出のためのVVAD-LRS3データセット
The VVAD-LRS3 Dataset for Visual Voice Activity Detection
ロボットは日常のデバイスになりつつあり、人間との相互作用を増やしています。人間と機械の相互作用をより自然にするために、カメラの視覚入力が与えられたときに人が話しているかどうかを検出できる視覚音声活動検出(VVAD)のような認知機能を実装する必要があります。ニューラルネットワークは、画像処理、時系列予測、自然言語処理、およびその他のドメインのタスクの最先端です。これらのネットワークには、大量のラベル付きデータが必要です。現在、VVADのタスク用のデータセットは多くありません。この作業では、VVAD-LRS3データセットと呼ばれる大規模なデータセットを作成しました。これは、LRS3データセットからの自動注釈によって派生したものです。 VVAD-LRS3データセットには、次の競合データセット(WildVVAD)の3倍以上の44Kを超えるサンプルが含まれています。顔と唇の画像、顔と唇のランドマークの特徴の4種類の特徴について、さまざまなベースラインを評価します。顔画像の畳み込みニューラルネットワーク長短期記憶(CNN LSTM)を使用すると、テストセットで92%の精度に達しました。人間を使った研究では、テストセットで87.93%の精度に達することが示されました。
Robots are becoming everyday devices, increasing their interaction with humans. To make human-machine interaction more natural, cognitive features like Visual Voice Activity Detection (VVAD), which can detect whether a person is speaking or not, given visual input of a camera, need to be implemented. Neural networks are state of the art for tasks in Image Processing, Time Series Prediction, Natural Language Processing and other domains. Those Networks require large quantities of labeled data. Currently there are not many datasets for the task of VVAD. In this work we created a large scale dataset called the VVAD-LRS3 dataset, derived by automatic annotations from the LRS3 dataset. The VVAD-LRS3 dataset contains over 44K samples, over three times the next competitive dataset (WildVVAD). We evaluate different baselines on four kinds of features: facial and lip images, and facial and lip landmark features. With a Convolutional Neural Network Long Short Term Memory (CNN LSTM) on facial images an accuracy of 92% was reached on the test set. A study with humans showed that they reach an accuracy of 87.93% on the test set.
updated: Tue Sep 28 2021 15:08:20 GMT+0000 (UTC)
published: Tue Sep 28 2021 15:08:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト