3B から 9B のパラメーターにわたる自己回帰視覚言語モデルのファミリーである OpenFlamingo を紹介します。 OpenFlamingo は、DeepMind の Flamingo モデルのオープンソース レプリケーションを作成する継続的な取り組みです。 7 つの視覚言語データセットでは、OpenFlamingo モデルは、対応する Flamingo パフォーマンスの平均 80 ~ 89% でした。この技術レポートでは、モデル、トレーニング データ、ハイパーパラメーター、評価スイートについて説明します。モデルとコードは https://github.com/mlfoundations/open_flamingo で共有されています。
We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.