arXiv reaDer
キャプションの監視により、堅牢な学習が可能になります
Caption supervision enables robust learners
CLIP のようなビジョン言語 (VL) モデルは、自然な分布の変化に対してロバストです。その理由の 1 つは、CLIP がキャプション監視と呼ばれる手法を使用して非構造化データを学習するためです。モデルは、画像にリンクされたテキストをグラウンド トゥルース ラベルとして解釈します。慎重に管理された比較研究では、標準的なクロスエントロピー損失 (クラス名のキャプションをスキャンすることによって割り当てられた画像ラベルを使用) でトレーニングされたキャプション教師付き CNN は、同じデータでトレーニングされた VL モデルよりも優れた分布ロバスト性を示すことができることを示しています。高精度のキャプション教師ありモデルを使用した将来の実験を容易にするために、CaptionNet (https://github.com/penfever/CaptionNet/) を導入します。 Web スクレイピングされたキャプションを含む準拠サンプル。 CaptionNet での一連の実験では、損失関数の選択、データのフィルタリング、および監視戦略によって、堅牢なコンピューター ビジョンがどのように実現されるかを示します。また、実験を再現するために必要なコードベースを VL Hub (https://github.com/penfever/vlhub/) で提供しています。
Vision language (VL) models like CLIP are robust to natural distribution shifts, in part because CLIP learns on unstructured data using a technique called caption supervision; the model inteprets image-linked texts as ground-truth labels. In a carefully controlled comparison study, we show that caption-supervised CNNs trained on a standard cross-entropy loss (with image labels assigned by scanning captions for class names) can exhibit greater distributional robustness than VL models trained on the same data. To facilitate future experiments with high-accuracy caption-supervised models, we introduce CaptionNet (https://github.com/penfever/CaptionNet/), which includes a class-balanced, fully supervised dataset with over 50,000 new human-labeled ImageNet-compliant samples which includes web-scraped captions. In a series of experiments on CaptionNet, we show how the choice of loss function, data filtration and supervision strategy enable robust computer vision. We also provide the codebase necessary to reproduce our experiments at VL Hub (https://github.com/penfever/vlhub/).
updated: Thu Dec 08 2022 14:28:09 GMT+0000 (UTC)
published: Thu Oct 13 2022 22:29:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト