大規模なクロスモーダル事前トレーニング パラダイムは、最近、ゼロ ショット分類、検索、画像キャプションなど、さまざまなダウンストリーム タスクでユビキタスな成功を収めています。しかし、それらの成功は、Web クロールされたデータの規模と品質に大きく依存しています。これらのデータには、不完全でノイズの多い情報 (間違ったコンテンツや無関係なコンテンツなど) が当然含まれています。既存の作業では、データをクリーンアップするための手動ルールを設計するか、ノイズの影響を軽減するための補助信号として疑似ターゲットを生成します。これらは、誤った課題と不完全な課題の両方に同時に明示的に取り組むことはありません。この論文では、既存のデータを単独でマイニングすることによってノイズの影響を自動的に軽減するために、ノイズ調和とノイズの 2 つのスキームを介して事前トレーニングを安定させるための原理に基づくノイズ ロバスト言語イメージ事前トレーニング フレームワーク (NLIP) を提案します。完了。まず、ノイズ調和スキームでは、NLIP はクロスモーダル トランスフォーマーの記憶効果に従って各ペアのノイズ確率を推定し、次にノイズ適応正則化を採用してクロスモーダル アラインメントをさまざまな程度で調和させます。第 2 に、ノイズ補完スキームでは、テキストの欠落オブジェクト情報を充実させるために、NLIP は概念条件付けられたクロスモーダル デコーダーを挿入して、意味的に一貫した合成キャプションを取得し、取得した視覚的概念 (つまり、オブジェクトの名前) を対応する画像に付けて、キャプション生成をガイドします。ノイズ調和とノイズ補完スキームを共同で最適化することにより、NLIP は画像テキスト事前トレーニング中の一般的なノイズ効果をより効率的な方法で軽減できます。広範な実験により、12 のゼロショット分類データセット、MSCOCO 画像キャプション、およびゼロショット画像テキスト検索タスクで、既存の事前トレーニング済みモデル (CLIP、FILIP、BLIP など) よりもわずか 26M データを使用した NLIP の大幅なパフォーマンス向上が示されています。
Large-scale cross-modal pre-training paradigms have recently shown ubiquitous success on a wide range of downstream tasks, e.g., zero-shot classification, retrieval and image captioning. However, their successes highly rely on the scale and quality of web-crawled data that naturally contain incomplete and noisy information (e.g., wrong or irrelevant content). Existing works either design manual rules to clean data or generate pseudo-targets as auxiliary signals for reducing noise impact, which do not explicitly tackle both the incorrect and incomplete challenges simultaneously. In this paper, to automatically mitigate the impact of noise by solely mining over existing data, we propose a principled Noise-robust Language-Image Pre-training framework (NLIP) to stabilize pre-training via two schemes: noise-harmonization and noise-completion. First, in noise-harmonization scheme, NLIP estimates the noise probability of each pair according to the memorization effect of cross-modal transformers, then adopts noise-adaptive regularization to harmonize the cross-modal alignments with varying degrees. Second, in noise-completion scheme, to enrich the missing object information of text, NLIP injects a concept-conditioned cross-modal decoder to obtain semantic-consistent synthetic captions to complete noisy ones, which uses the retrieved visual concepts (i.e., objects' names) for the corresponding image to guide captioning generation. By collaboratively optimizing noise-harmonization and noise-completion schemes, our NLIP can alleviate the common noise effects during image-text pre-training in a more efficient way. Extensive experiments show the significant performance improvements of our NLIP using only 26M data over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot classification datasets, MSCOCO image captioning and zero-shot image-text retrieval tasks.