OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Anas Awadalla; Irena Gao; Josh Gardner; Jack Hessel; Yusuf Hanafy; Wanrong Zhu; Kalyani Marathe; Yonatan Bitton; Samir Gadre; Shiori Sagawa; Jenia Jitsev; Simon Kornblith; Pang Wei Koh; Gabriel Ilharco; Mitchell Wortsman; Ludwig Schmidt

OpenFlamingo: 大規模な自己回帰視覚言語モデルをトレーニングするためのオープンソースフレームワーク

3B から 9B のパラメーターにわたる自己回帰視覚言語モデルのファミリーである OpenFlamingo を紹介します。 OpenFlamingo は、DeepMind の Flamingo モデルのオープンソースレプリケーションを作成する継続的な取り組みです。 7 つの視覚言語データセットでは、OpenFlamingo モデルは、対応する Flamingo パフォーマンスの平均 80 ～ 89% でした。この技術レポートでは、モデル、トレーニングデータ、ハイパーパラメーター、評価スイートについて説明します。モデルとコードは https://github.com/mlfoundations/open_flamingo で共有されています。

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

updated: Mon Aug 07 2023 17:53:09 GMT+0000 (UTC)

published: Wed Aug 02 2023 19:10:23 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト