arXiv reaDer
AudioViewer:サウンドの視覚化を学ぶ
AudioViewer: Learning to Visualize Sounds
感覚代用の分野における長年の目標は、オーディオコンテンツを視覚化することにより、聴覚障害者が音を知覚できるようにすることです。音声とテキスト、またはテキストと画像の間で翻訳する既存のモデルとは異なり、人間の音声だけでなく一般的な環境の音にも適用される、即時および低レベルの音声からビデオへの翻訳を対象としています。このような置換は、教師あり学習のラベルがない人工的なものであるため、私たちの主な貢献は、高レベルの制約を介して対になっていない例から学習するオーディオからビデオへのマッピングを構築することです。スピーチの場合、コンテンツ(電話)をスタイル(性別と方言)からさらに解きほぐし、それらを共通の解きほぐされた潜在空間にマッピングします。ユーザー調査を含む定性的および定量的結果は、対になっていない翻訳アプローチが生成されたビデオの重要な音声機能を維持し、顔と数字のビデオが人間が一致するように解析できる高次元の音声機能を視覚化するのに非常に適していることを示しています音、言葉、話者を区別します。
A long-standing goal in the field of sensory substitution is enabling sound perception for deaf people by visualizing audio content. Different from existing models that translate between speech and text or text and images, we target immediate and low-level audio to video translation that applies to generic environment sounds as well as human speech. Since such a substitution is artificial, without labels for supervised learning, our core contribution is to build a mapping from audio to video that learns from unpaired examples via high-level constraints. For speech, we additionally disentangle content (phones) from style (gender and dialect) by mapping them to a common disentangled latent space. Qualitative and quantitative results, including a user study, demonstrate that our unpaired translation approach maintains important audio features in the generated video and that videos of faces and numbers are well suited for visualizing high-dimensional audio features that can be parsed by humans to match and distinguish between sounds, words, and speakers.
updated: Fri Dec 03 2021 08:31:19 GMT+0000 (UTC)
published: Tue Dec 22 2020 21:52:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト