arXiv reaDer
TriBERT:視覚音分離のための全身人間中心の視聴覚表現学習
TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation
BERTなどの言語でのトランスフォーマーモデルの最近の成功により、マルチモーダルな特徴学習とタスクにこのようなアーキテクチャを使用するようになりました。ただし、ほとんどのマルチモーダルバリアント(ViLBERTなど)は、視覚言語データに限定されています。オーディオビジュアルモダリティでの使用を検討した人は比較的少なく、私たちの知る限り、音源の分離やローカリゼーションなどの詳細なオーディオビジュアル検出またはセグメンテーションタスクのコンテキストでそれらを説明するものはありません。この作業では、ViLBERTに触発されたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介します。これにより、柔軟な共同注意を使用して、ビジョン、ポーズ、オーディオの3つのモダリティにわたるコンテキスト特徴学習が可能になります。ポーズキーポイントの使用は、そのような表現が多くのオーディオビジュアルシナリオでパフォーマンスを大幅に向上させることができることを示す最近の作品に触発されています。人間がオブジェクトを操作する機能)。技術的な観点から、TriBERTアーキテクチャの一部として、空間的注意に基づく学習された視覚トークン化スキームを導入し、弱い監視を活用して、視覚モダリティとポーズモダリティのきめ細かいクロスモーダルインタラクションを可能にします。さらに、3つのストリームすべてにわたって定式化された音源分離損失で学習を補完します。大規模なMUSIC21データセットでモデルを事前トレーニングし、微調整により、そのデータセットおよび他のデータセットでのオーディオビジュアル音源分離のパフォーマンスが向上することを示します。さらに、学習したTriBERT表現は一般的であり、クロスモーダルオーディオビジュアルポーズ検索などの他のオーディオビジュアルタスクのパフォーマンスをトップ1の精度で66.7%も大幅に向上させることを示します。
The recent success of transformer models in language, such as BERT, has motivated the use of such architectures for multi-modal feature learning and tasks. However, most multi-modal variants (e.g., ViLBERT) have limited themselves to visual-linguistic data. Relatively few have explored its use in audio-visual modalities, and none, to our knowledge, illustrate them in the context of granular audio-visual detection or segmentation tasks such as sound source separation and localization. In this work, we introduce TriBERT -- a transformer-based architecture, inspired by ViLBERT, which enables contextual feature learning across three modalities: vision, pose, and audio, with the use of flexible co-attention. The use of pose keypoints is inspired by recent works that illustrate that such representations can significantly boost performance in many audio-visual scenarios where often one or more persons are responsible for the sound explicitly (e.g., talking) or implicitly (e.g., sound produced as a function of human manipulating an object). From a technical perspective, as part of the TriBERT architecture, we introduce a learned visual tokenization scheme based on spatial attention and leverage weak-supervision to allow granular cross-modal interactions for visual and pose modalities. Further, we supplement learning with sound-source separation loss formulated across all three streams. We pre-train our model on the large MUSIC21 dataset and demonstrate improved performance in audio-visual sound source separation on that dataset as well as other datasets through fine-tuning. In addition, we show that the learned TriBERT representations are generic and significantly improve performance on other audio-visual tasks such as cross-modal audio-visual-pose retrieval by as much as 66.7% in top-1 accuracy.
updated: Tue Oct 26 2021 04:50:42 GMT+0000 (UTC)
published: Tue Oct 26 2021 04:50:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト