Grounded Language-Image Pre-training

Liunian Harold Li; Pengchuan Zhang; Haotian Zhang; Jianwei Yang; Chunyuan Li; Yiwu Zhong; Lijuan Wang; Lu Yuan; Lei Zhang; Jenq-Neng Hwang; Kai-Wei Chang; Jianfeng Gao

根拠のある言語-画像の事前トレーニング

このホワイトペーパーでは、オブジェクトレベル、言語認識、およびセマンティックが豊富な視覚的表現を学習するための、根拠のある言語画像事前トレーニング（GLIP）モデルを紹介します。 GLIPは、事前トレーニングのためにオブジェクト検出とフレーズ接地を統合します。統合には2つの利点があります。1）GLIPが検出データと接地データの両方から学習して、両方のタスクを改善し、優れた接地モデルをブートストラップできるようにします。 2）GLIPは、自己トレーニング方式でグラウンディングボックスを生成することにより、大量の画像とテキストのペアを活用して、学習した表現をセマンティックに富んだものにすることができます。私たちの実験では、3Mの人間による注釈と24MのWebクロールされた画像とテキストのペアを含む27Mの接地データでGLIPを事前トレーニングしました。学習した表現は、さまざまなオブジェクトレベルの認識タスクへの強力なゼロショットおよび数ショットの転送可能性を示しています。 1）COCOとLVISで直接評価した場合（事前トレーニング中にCOCOに画像が表示されない場合）、GLIPはそれぞれ49.8APと26.9APを達成し、多くの監視対象ベースラインを上回ります。 2）COCOで微調整した後、GLIPはvalで60.8 AP、test-devで61.5 APを達成し、以前のSoTAを上回りました。 3）13のダウンストリームオブジェクト検出タスクに転送されると、ワンショットGLIPは完全に監視されたダイナミックヘッドと競合します。コードはhttps://github.com/microsoft/GLIPでリリースされています。

This paper presents a grounded language-image pre-training (GLIP) model for learning object-level, language-aware, and semantic-rich visual representations. GLIP unifies object detection and phrase grounding for pre-training. The unification brings two benefits: 1) it allows GLIP to learn from both detection and grounding data to improve both tasks and bootstrap a good grounding model; 2) GLIP can leverage massive image-text pairs by generating grounding boxes in a self-training fashion, making the learned representation semantic-rich. In our experiments, we pre-train GLIP on 27M grounding data, including 3M human-annotated and 24M web-crawled image-text pairs. The learned representations demonstrate strong zero-shot and few-shot transferability to various object-level recognition tasks. 1) When directly evaluated on COCO and LVIS (without seeing any images in COCO during pre-training), GLIP achieves 49.8 AP and 26.9 AP, respectively, surpassing many supervised baselines. 2) After fine-tuned on COCO, GLIP achieves 60.8 AP on val and 61.5 AP on test-dev, surpassing prior SoTA. 3) When transferred to 13 downstream object detection tasks, a 1-shot GLIP rivals with a fully-supervised Dynamic Head. Code is released at https://github.com/microsoft/GLIP.

updated: Fri Jun 17 2022 10:32:21 GMT+0000 (UTC)

published: Tue Dec 07 2021 17:47:50 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト