arXiv reaDer
GIT:ビジョンと言語のための生成的な画像からテキストへのトランスフォーマー
GIT: A Generative Image-to-text Transformer for Vision and Language
このホワイトペーパーでは、画像/ビデオのキャプションや質問応答などの視覚言語タスクを統合するために、Generative Image-to-Text Transformer(GIT)を設計およびトレーニングします。生成モデルは、事前トレーニングと微調整の間で一貫したネットワークアーキテクチャを提供しますが、既存の作業には通常、複雑な構造(ユニ/マルチモーダルエンコーダ/デコーダ)が含まれ、オブジェクト検出器/タガーや光学式文字認識(OCR)などの外部モジュールに依存します)。 GITでは、単一の言語モデリングタスクの下で1つの画像エンコーダーと1つのテキストデコーダーとしてアーキテクチャを簡素化します。また、トレーニング前のデータとモデルサイズをスケールアップして、モデルのパフォーマンスを向上させます。ベルやホイッスルなしで、私たちのGITは、大きなマージンを持って12の挑戦的なベンチマークで新しい最先端技術を確立します。たとえば、私たちのモデルは、TextCapsで初めて人間のパフォーマンスを上回ります(CIDErでは138.2対125.5)。さらに、世代ベースの画像分類とシーンテキスト認識の新しいスキームを提示し、標準ベンチマークでまともなパフォーマンスを実現します。
In this paper, we design and train a Generative Image-to-text Transformer, GIT, to unify vision-language tasks such as image/video captioning and question answering. While generative models provide a consistent network architecture between pre-training and fine-tuning, existing work typically contains complex structures (uni/multi-modal encoder/decoder) and depends on external modules such as object detectors/taggers and optical character recognition (OCR). In GIT, we simplify the architecture as one image encoder and one text decoder under a single language modeling task. We also scale up the pre-training data and the model size to boost the model performance. Without bells and whistles, our GIT establishes new state of the arts on 12 challenging benchmarks with a large margin. For instance, our model surpasses the human performance for the first time on TextCaps (138.2 vs. 125.5 in CIDEr). Furthermore, we present a new scheme of generation-based image classification and scene text recognition, achieving decent performance on standard benchmarks.
updated: Tue May 31 2022 20:36:08 GMT+0000 (UTC)
published: Fri May 27 2022 17:03:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト