Translating Visual Art into Music
  この研究で導入されたSynesthetic Variational Autoencoder(SynVAE)は、ペアのデータセットがなくても視覚と聴覚の感覚モダリティ間の一貫したマッピングを学習できます。 MNISTとBehance Artistic Mediaデータセット(BAM)の定量的評価により、SynVAEはクロスモーダル潜在空間の一貫性を維持しながら、翻訳中に十分な情報コンテンツを保持できることが示されています。定性的評価試験では、人間の評価者はさらに、音楽サンプルを最大73%の精度で生成した画像と一致させることができました。
The Synesthetic Variational Autoencoder (SynVAE) introduced in this research is able to learn a consistent mapping between visual and auditive sensory modalities in the absence of paired datasets. A quantitative evaluation on MNIST as well as the Behance Artistic Media dataset (BAM) shows that SynVAE is capable of retaining sufficient information content during the translation while maintaining cross-modal latent space consistency. In a qualitative evaluation trial, human evaluators were furthermore able to match musical samples with the images which generated them with accuracies of up to 73%.
updated: Tue Sep 03 2019 14:36:19 GMT+0000 (UTC)
published: Tue Sep 03 2019 14:36:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト