arXiv reaDer
クロスモーダル埋め込みを学習することにより、オーディオと超音波を同期する
Synchronising audio and ultrasound by learning cross-modal embeddings
 視聴覚同期は、音声音声と咬合器のビデオ記録との間の時間オフセットを決定するタスクです。小児の言語療法では、録音時に2つのモダリティを同期するためにハードウェアに依存する機器を使用して、舌のオーディオおよび超音波ビデオがキャプチャされます。ハードウェアの同期は実際には失敗する可能性があり、ポストホックで信号を同期するメカニズムは存在しません。この問題に対処するために、2つのモダリティ間の相関を利用してオフセットを見つける2ストリームニューラルネットワークを使用します。モデルを69人のスピーカーからの録音でトレーニングし、目に見えないセラピーセッションと目に見えないスピーカーからのテスト発話の82.9%を正しく同期することを示します。したがって、手動で同期される発話の数が大幅に削減されます。テスト発話のモデルパフォーマンスを分析すると、単語、文章、会話などの音声の自然な変化を含む発話と比較して、指示された電話の調音を自動的に同期するのが難しいことがわかります。
Audiovisual synchronisation is the task of determining the time offset between speech audio and a video recording of the articulators. In child speech therapy, audio and ultrasound videos of the tongue are captured using instruments which rely on hardware to synchronise the two modalities at recording time. Hardware synchronisation can fail in practice, and no mechanism exists to synchronise the signals post hoc. To address this problem, we employ a two-stream neural network which exploits the correlation between the two modalities to find the offset. We train our model on recordings from 69 speakers, and show that it correctly synchronises 82.9% of test utterances from unseen therapy sessions and unseen speakers, thus considerably reducing the number of utterances to be manually synchronised. An analysis of model performance on the test utterances shows that directed phone articulations are more difficult to automatically synchronise compared to utterances containing natural variation in speech such as words, sentences, or conversations.
updated: Wed Nov 27 2019 11:24:26 GMT+0000 (UTC)
published: Mon Jul 01 2019 13:22:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト