arXiv reaDer
言語はビジョンモデルの一般化に役立ちますか?
Does language help generalization in vision models?
マルチモーダルデータセットでトレーニングされたビジョンモデルは、大きな画像キャプションデータセットの幅広い可用性と、結果として得られるモデルの複数のダウンストリームタスク(ゼロショット学習など)への一般化の能力の両方の点で、最近非常に効率的であることが証明されました。これらの能力は、少なくとも部分的には、視覚的特徴空間の「意味論的根拠」に由来し、言語表現の空間を反映することによって意味のある構造を学習していると考える人もいるかもしれません。この直感に反して、非常に大きな教師あり画像データセット(ImageNet-21k)でトレーニングされたビジュアルモデル(BiT-M)は、マルチモーダル対応物(CLIP)と同じくらい一般化(少数ショット学習、教師なしクラスタリング)に効率的である可能性があることを示します。 )。他の標準的な視覚モデルまたは言語モデルと比較すると、BiT-Mの潜在的な表現は、CLIPの表現と同じように「言語的」であることがわかりました。全体として、これらの調査結果は、現在のモデルの一般化の改善を推進する主な要因は、(唯一の)マルチモーダル接地特性ではなく、トレーニングデータセットのサイズであることを示唆しています。
Vision models trained on multimodal datasets have recently proved very efficient, both in terms of the wide availability of large image-caption datasets, and in terms of the resulting model's ability to generalize to multiple downstream tasks (e.g. zero-shot learning). One might assume that these abilities are derived, at least in part, from a "semantic grounding" of the visual feature space, learning meaningful structure by mirroring the space of linguistic representations. Contrary to this intuition, we show that a visual model (BiT-M) trained on a very large supervised image dataset (ImageNet-21k) can be as efficient for generalization (few-shot learning, unsupervised clustering) as its multimodal counterpart (CLIP). When compared to other standard visual or language models, the latent representations of BiT-M were found to be just as "linguistic" as those of CLIP. Overall, these findings suggest that the main factor driving improvements of generalization in current models is the size of the training dataset, not (solely) the multimodal grounding property.
updated: Fri Apr 16 2021 18:54:14 GMT+0000 (UTC)
published: Fri Apr 16 2021 18:54:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト