arXiv reaDer
AudioViewer: 音を視覚化する学習
AudioViewer: Learning to Visualize Sounds
感覚代替の分野における長年の目標は、オーディオ コンテンツを視覚化することにより、聴覚障害者および難聴者 (DHH) の音の知覚を可能にすることです。音声とテキスト、またはテキストと画像の間で手話に翻訳する既存のモデルとは異なり、人間の音声だけでなく一般的な環境音にも適用される、即時かつ低レベルのオーディオからビデオへの翻訳を対象としています。このような置換は人為的であり、教師あり学習のラベルがないため、私たちの主な貢献は、高レベルの制約を介してペアになっていない例から学習するオーディオからビデオへのマッピングを構築することです。スピーチについては、性別や方言などのスタイルからコンテンツをさらに分離します。人間の研究を含む定性的および定量的な結果は、対になっていない翻訳アプローチが生成されたビデオで重要なオーディオ機能を維持していること、および顔と数字のビデオが、人間が解析して一致させることができる高次元のオーディオ機能を視覚化するのに適していることを示しています。音と言葉を区別する。コードとモデルは https://chunjinsong.github.io/audioviewer で入手できます
A long-standing goal in the field of sensory substitution is to enable sound perception for deaf and hard of hearing (DHH) people by visualizing audio content. Different from existing models that translate to hand sign language, between speech and text, or text and images, we target immediate and low-level audio to video translation that applies to generic environment sounds as well as human speech. Since such a substitution is artificial, without labels for supervised learning, our core contribution is to build a mapping from audio to video that learns from unpaired examples via high-level constraints. For speech, we additionally disentangle content from style, such as gender and dialect. Qualitative and quantitative results, including a human study, demonstrate that our unpaired translation approach maintains important audio features in the generated video and that videos of faces and numbers are well suited for visualizing high-dimensional audio features that can be parsed by humans to match and distinguish between sounds and words. Code and models are available at https://chunjinsong.github.io/audioviewer
updated: Thu Nov 10 2022 06:33:29 GMT+0000 (UTC)
published: Tue Dec 22 2020 21:52:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト