arXiv reaDer
視聴覚音声抽出に必要なのはデュアルパス注意だけです
Dual-path Attention is All You Need for Audio-Visual Speech Extraction
唇の動きを見ることによって騒々しい混合物から特定の話者の音声を抽出することを目的とする視聴覚ターゲット音声抽出は、時間領域音声分離モデルと視覚的特徴抽出器(CNN)を組み合わせて大きな進歩を遂げました。オーディオ情報とビデオ情報を融合する際の問題の1つは、時間解像度が異なることです。現在のほとんどの研究では、時間の次元に沿って視覚的な機能をアップサンプリングし、オーディオとビデオの機能を時間内に調整できるようにしています。ただし、唇の動きには、主に長期的な情報または電話レベルの情報が含まれている必要があると考えています。この仮定に基づいて、視聴覚機能を融合する新しい方法を提案します。 DPRNN dprnnの場合、チャンク間ディメンションの時間解像度はビデオフレームの時間解像度に非常に近い可能性があることがわかります。 sepformerと同様に、DPRNNのLSTMは、チャンク内およびチャンク間の自己注意に置き換えられますが、提案されたアルゴリズムでは、チャンク間の注意は、追加の機能ストリームとして視覚的機能を組み込みます。これにより、視覚的な手がかりのアップサンプリングが防止され、より効率的な視聴覚融合が実現します。この結果は、他の時間領域ベースの視聴覚融合モデルと比較して優れた結果を達成していることを示しています。
Audio-visual target speech extraction, which aims to extract a certain speaker's speech from the noisy mixture by looking at lip movements, has made significant progress combining time-domain speech separation models and visual feature extractors (CNN). One problem of fusing audio and video information is that they have different time resolutions. Most current research upsamples the visual features along the time dimension so that audio and video features are able to align in time. However, we believe that lip movement should mostly contain long-term, or phone-level information. Based on this assumption, we propose a new way to fuse audio-visual features. We observe that for DPRNN dprnn, the interchunk dimension's time resolution could be very close to the time resolution of video frames. Like sepformer, the LSTM in DPRNN is replaced by intra-chunk and inter-chunk self-attention, but in the proposed algorithm, inter-chunk attention incorporates the visual features as an additional feature stream. This prevents the upsampling of visual cues, resulting in more efficient audio-visual fusion. The result shows we achieve superior results compared with other time-domain based audio-visual fusion models.
updated: Sat Jul 09 2022 07:27:46 GMT+0000 (UTC)
published: Sat Jul 09 2022 07:27:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト