arXiv reaDer
クロスモダリティ勾配調和によるマルチモーダル事前トレーニングのスケーリング
Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization
自己教師ありの事前トレーニングは最近、大規模なマルチモーダル データで成功を収めたことを示しており、最先端の対照学習法は、多くの場合、ビデオ/オーディオまたはビデオ/テキスト ペアなどのクロス モダリティ入力から機能の一貫性を強化します。実際に定式化して活用するのは便利ですが、2つのモダリティは一時的に整列していても意味的にずれている可能性があるため、このようなクロスモダリティアライメント(CMA)は弱くてノイズの多い監視にすぎません。たとえば、一般的に採用されている教育ビデオでも、スピーカーは現在のフレームに視覚的に存在しない何かを参照することがあります。意味の不一致は、インターネットからの未加工のビデオの場合、より予測不可能になるだけです.モダリティ間の競合やバイアスを引き起こす可能性があると推測し、したがって、CMA がより大規模でより異種のデータを使用したトレーニングにスケールアップすることを妨げる可能性があります。この論文では、最初に、教育用ビデオのみを使用した最新の VATT 事前トレーニングでも、同じビデオ、オーディオ、テキストのトリプレット内の異なる CMA 損失間に強い勾配競合が存在し、それらが監視のノイズ源であることを示すことを観察することによって、私たちの推測を検証します。 .次に、2 つの手法を使用して、このような勾配を調和させることを提案します。 (ii)勾配ベースのカリキュラム学習:サンプルのノイズの指標に関する勾配競合情報を活用して、ノイズの少ないサンプルトリプレットでのトレーニングを優先するカリキュラム学習戦略を開発します。これらの手法を HowTo100M データセットでの VATT の事前トレーニングに適用することで、さまざまなダウンストリーム タスクでのパフォーマンスを一貫して向上させます。さらに、VATT 事前トレーニングをより複雑な非物語の Youtube8M データセットにスケーリングして、最先端技術をさらに改善することができます。
Self-supervised pre-training recently demonstrates success on large-scale multimodal data, and state-of-the-art contrastive learning methods often enforce the feature consistency from cross-modality inputs, such as video/audio or video/text pairs. Despite its convenience to formulate and leverage in practice, such cross-modality alignment (CMA) is only a weak and noisy supervision, since two modalities can be semantically misaligned even they are temporally aligned. For example, even in the commonly adopted instructional videos, a speaker can sometimes refer to something that is not visually present in the current frame; and the semantic misalignment would only be more unpredictable for the raw videos from the internet. We conjecture that might cause conflicts and biases among modalities, and may hence prohibit CMA from scaling up to training with larger and more heterogeneous data. This paper first verifies our conjecture by observing that, even in the latest VATT pre-training using only instructional videos, there exist strong gradient conflicts between different CMA losses within the same video, audio, text triplet, indicating them as the noisy source of supervision. We then propose to harmonize such gradients, via two techniques: (i) cross-modality gradient realignment: modifying different CMA loss gradients for each sample triplet, so that their gradient directions are more aligned; and (ii) gradient-based curriculum learning: leveraging the gradient conflict information on an indicator of sample noisiness, to develop a curriculum learning strategy to prioritize training on less noisy sample triplets. Applying those techniques to pre-training VATT on the HowTo100M dataset, we consistently improve its performance on different downstream tasks. Moreover, we are able to scale VATT pre-training to more complicated non-narrative Youtube8M dataset to further improve the state-of-the-arts.
updated: Thu Nov 03 2022 18:12:32 GMT+0000 (UTC)
published: Thu Nov 03 2022 18:12:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト