arXiv reaDer
言語はビジョンモデルの一般化に役立ちますか?
Does language help generalization in vision models?
マルチモーダルデータセットでトレーニングされたビジョンモデルは、大きな画像キャプションデータセットの幅広い可用性から恩恵を受けることができます。最近のモデル(CLIP)は、ゼロショットおよび転送学習設定で一般化することがわかりました。これは、言語的または「意味論的根拠」が視覚的特徴空間に追加の一般化能力を与えることを意味する可能性があります。ここでは、教師なしクラスタリング、数ショット学習、転移学習、敵対的ロバスト性の観点から、さまざまなマルチモーダルアーキテクチャとビジョンのみのモデルを体系的に評価します。各設定で、マルチモーダルトレーニングは、標準の教師あり視覚トレーニングと比較して、追加の一般化機能を生成しませんでした。ビジョンモデルの改善に役立つセマンティックグラウンディングには、まだ作業が必要であると結論付けています。
Vision models trained on multimodal datasets can benefit from the wide availability of large image-caption datasets. A recent model (CLIP) was found to generalize well in zero-shot and transfer learning settings. This could imply that linguistic or "semantic grounding" confers additional generalization abilities to the visual feature space. Here, we systematically evaluate various multimodal architectures and vision-only models in terms of unsupervised clustering, few-shot learning, transfer learning and adversarial robustness. In each setting, multimodal training produced no additional generalization capability compared to standard supervised visual training. We conclude that work is still required for semantic grounding to help improve vision models.
updated: Sat May 15 2021 17:23:52 GMT+0000 (UTC)
published: Fri Apr 16 2021 18:54:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト