arXiv reaDer
サウンディングオブジェクトの視覚的接地と音の分離の循環的共同学習
Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation
私たちの日常生活には、同期したオーディオとビジュアルのイベントが豊富にあります。イベント内では、オーディオシーンは対応するビジュアルオブジェクトに関連付けられています。一方、サウンドオブジェクトは、オーディオトラック内の個々のサウンドを示し、分離するのに役立ちます。この観察に基づいて、本論文では、統一されたフレームワークでサウンディングオブジェクトの視覚的接地と視聴覚音の分離を共同で学習できる循環共同学習(CCoL)パラダイムを提案します。具体的には、接地された物体と音の関係を活用して、音の分離の結果を改善することができます。一方、分離された音からの識別情報の恩恵を受けて、サウンディングオブジェクトの接地のためのトレーニング例のサンプリングを改善します。これにより、2つのタスクの共同学習サイクルが構築され、相互に有益になります。広範な実験は、提案されたフレームワークが両方のタスクで比較された最近のアプローチよりも優れていることを示しており、それらは私たちの周期的な共同学習でお互いから利益を得ることができます。
There are rich synchronized audio and visual events in our daily life. Inside the events, audio scenes are associated with the corresponding visual objects; meanwhile, sounding objects can indicate and help to separate their individual sounds in the audio track. Based on this observation, in this paper, we propose a cyclic co-learning (CCoL) paradigm that can jointly learn sounding object visual grounding and audio-visual sound separation in a unified framework. Concretely, we can leverage grounded object-sound relations to improve the results of sound separation. Meanwhile, benefiting from discriminative information from separated sounds, we improve training example sampling for sounding object grounding, which builds a co-learning cycle for the two tasks and makes them mutually beneficial. Extensive experiments show that the proposed framework outperforms the compared recent approaches on both tasks, and they can benefit from each other with our cyclic co-learning.
updated: Mon Apr 05 2021 17:30:41 GMT+0000 (UTC)
published: Mon Apr 05 2021 17:30:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト