arXiv reaDer
視聴覚行動認識のためのノイズ耐性学習
Noise-Tolerant Learning for Audio-Visual Action Recognition
最近、ビデオ認識は、モデルのパフォーマンスまたは堅牢性を向上させるために複数のモダリティを統合することに焦点を当てたマルチモーダル学習の助けを借りて出現しています。さまざまなマルチモーダル学習方法が提案され、優れた認識結果を提供しますが、これらの方法のほとんどすべてが高品質の手動注釈に依存しており、マルチモーダルデータ間のモダリティが関連する意味情報を提供すると想定しています。残念ながら、最も広く使用されているビデオデータセットはインターネットから収集されており、必然的にノイズの多いラベルとノイズの多い通信が含まれています。この問題を解決するために、視聴覚行動認識タスクをプロキシとして使用し、ノイズ耐性のある学習フレームワークを提案して、ノイズの多いラベルとノイズの多い対応の両方に対する干渉防止モデルのパラメーターを見つけます。私たちの方法は2つのフェーズで構成され、モダリティ間の固有の相関関係によってノイズを補正することを目的としています。ノイズ耐性のある対照的なトレーニングフェーズを最初に実行して、ノイズの多いラベルの影響を受けない堅牢なモデルパラメータを学習します。ノイズの多い対応の影響を減らすために、異なるモダリティ間の一貫性を調整するためのクロスモーダルノイズ推定コンポーネントを提案します。ノイズの多い対応はインスタンスレベルで存在したため、ノイズの多い対応の干渉をさらに軽減するために、カテゴリレベルの対照的な損失が提案されます。次に、ハイブリッド教師ありトレーニングフェーズで、フィーチャ間の距離メトリックを計算して、補完的な教師として使用される修正されたラベルを取得します。さらに、実際のデータセットのノイズの多い対応を調査し、合成および実際のノイズデータを使用して包括的な実験を行います。結果は、最先端の方法と比較して、私たちの方法の有利な性能を検証します。
Recently, video recognition is emerging with the help of multi-modal learning, which focuses on integrating multiple modalities to improve the performance or robustness of a model. Although various multi-modal learning methods have been proposed and offer remarkable recognition results, almost all of these methods rely on high-quality manual annotations and assume that modalities among multi-modal data provide relevant semantic information. Unfortunately, most widely used video datasets are collected from the Internet and inevitably contain noisy labels and noisy correspondence. To solve this problem, we use the audio-visual action recognition task as a proxy and propose a noise-tolerant learning framework to find anti-interference model parameters to both noisy labels and noisy correspondence. Our method consists of two phases and aims to rectify noise by the inherent correlation between modalities. A noise-tolerant contrastive training phase is performed first to learn robust model parameters unaffected by the noisy labels. To reduce the influence of noisy correspondence, we propose a cross-modal noise estimation component to adjust the consistency between different modalities. Since the noisy correspondence existed at the instance level, a category-level contrastive loss is proposed to further alleviate the interference of noisy correspondence. Then in the hybrid supervised training phase, we calculate the distance metric among features to obtain corrected labels, which are used as complementary supervision. In addition, we investigate the noisy correspondence in real-world datasets and conduct comprehensive experiments with synthetic and real noise data. The results verify the advantageous performance of our method compared to state-of-the-art methods.
updated: Mon May 16 2022 12:14:03 GMT+0000 (UTC)
published: Mon May 16 2022 12:14:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト