arXiv reaDer
視聴覚統合は、マルチモーダル攻撃の下での堅牢性を強化できますか?
Can audio-visual integration strengthen robustness under multimodal attacks?
この論文では、攻撃下での機械の多感覚知覚に関する体系的な研究を行うことを提案します。視聴覚学習の堅牢性を調査するためのプロキシとして、マルチモーダル敵対攻撃に対する視聴覚イベント認識タスクを使用します。オーディオ、ビジュアル、および両方のモダリティを攻撃して、オーディオビジュアル統合が依然として知覚を強化するかどうか、およびさまざまな融合メカニズムがオーディオビジュアルモデルの堅牢性にどのように影響するかを調査します。攻撃下でのマルチモーダルインタラクションを解釈するために、弱く監視された音源の視覚的ローカリゼーションモデルを学習して、ビデオ内のサウンド領域をローカライズします。マルチモーダル攻撃を軽減するために、視聴覚非類似性制約と外部機能メモリバンクに基づく視聴覚防御アプローチを提案します。広範な実験は、視聴覚モデルがマルチモーダルな敵対者の攻撃を受けやすいことを示しています。視聴覚統合は、マルチモーダル攻撃の下で強化するのではなく、モデルの堅牢性を低下させる可能性があります。弱く監視された音源の視覚的位置特定モデルでさえ、うまくだまされる可能性があります。私たちの防御方法は、クリーンなモデルのパフォーマンスを大幅に犠牲にすることなく、オーディオビジュアルネットワークの脆弱性を向上させることができます。
In this paper, we propose to make a systematic study on machines multisensory perception under attacks. We use the audio-visual event recognition task against multimodal adversarial attacks as a proxy to investigate the robustness of audio-visual learning. We attack audio, visual, and both modalities to explore whether audio-visual integration still strengthens perception and how different fusion mechanisms affect the robustness of audio-visual models. For interpreting the multimodal interactions under attacks, we learn a weakly-supervised sound source visual localization model to localize sounding regions in videos. To mitigate multimodal attacks, we propose an audio-visual defense approach based on an audio-visual dissimilarity constraint and external feature memory banks. Extensive experiments demonstrate that audio-visual models are susceptible to multimodal adversarial attacks; audio-visual integration could decrease the model robustness rather than strengthen under multimodal attacks; even a weakly-supervised sound source visual localization model can be successfully fooled; our defense method can improve the invulnerability of audio-visual networks without significantly sacrificing clean model performance.
updated: Mon Apr 05 2021 16:46:45 GMT+0000 (UTC)
published: Mon Apr 05 2021 16:46:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト