arXiv reaDer
視聴覚協会からの視覚スタイルの学習
Learning Visual Styles from Audio-Visual Associations
雨のパターンから雪のクランチまで、私たちが聞く音は、シーン内に現れる視覚的なテクスチャーを伝えることがよくあります。この論文では、ラベルのない視聴覚データから視覚スタイルを学習する方法を提示します。私たちのモデルは、シーンのテクスチャを操作してサウンドに一致させることを学習します。これは、オーディオ駆動型の画像スタイル化と呼ばれる問題です。ペアの視聴覚データのデータセットが与えられると、操作後に、与えられた入力音と共起する可能性が高くなるように入力画像を変更することを学びます。定量的および定性的な評価では、サウンドベースのモデルがラベルベースのアプローチよりも優れています。また、サウンドの音量を調整したり、2つのサウンドを混ぜ合わせたりすると、視覚スタイルに予測可能な変化が生じるため、オーディオが画像を操作するための直感的な表現になり得ることも示します。プロジェクトのウェブページ:https://tinglok.netlify.app/files/avstyle
From the patter of rain to the crunch of snow, the sounds we hear often convey the visual textures that appear within a scene. In this paper, we present a method for learning visual styles from unlabeled audio-visual data. Our model learns to manipulate the texture of a scene to match a sound, a problem we term audio-driven image stylization. Given a dataset of paired audio-visual data, we learn to modify input images such that, after manipulation, they are more likely to co-occur with a given input sound. In quantitative and qualitative evaluations, our sound-based model outperforms label-based approaches. We also show that audio can be an intuitive representation for manipulating images, as adjusting a sound's volume or mixing two sounds together results in predictable changes to visual style. Project webpage: https://tinglok.netlify.app/files/avstyle
updated: Tue May 10 2022 17:57:07 GMT+0000 (UTC)
published: Tue May 10 2022 17:57:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト