arXiv reaDer
EBMとCL:視覚的な質問応答のための自己監視型の視覚的事前トレーニングの調査
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering
クリーンで多様なラベル付きデータの可用性は、視覚的な質問応答(VQA)などの複雑なタスクでモデルをトレーニングするための主要な障害です。大規模な視覚と言語モデルに関する広範な研究により、自己監視学習がマルチモーダルインタラクションの事前トレーニングに効果的であることが示されています。このテクニカルレポートでは、視覚的な表現に焦点を当てています。ラベルのない画像を活用するための自己監視方式を確認および評価し、モデルを事前トレーニングします。次に、制御された評価と診断を可能にするカスタムVQAタスクを微調整します。エネルギーベースモデル(EBM)と対照学習(CL)を比較します。 EBMの人気は高まっていますが、ダウンストリームタスクの評価が不足しています。 EBMとCLの両方が、ラベルのない画像から表現を学習できることがわかりました。これにより、注釈がほとんどないデータでVQAモデルをトレーニングできます。 CLEVRと同様の単純な設定では、CL表現も体系的な一般化を改善し、より大きな、監視された、ImageNetで事前トレーニングされたモデルからの表現のパフォーマンスと一致することさえわかります。ただし、EBMは不安定であり、結果のばらつきが大きいため、トレーニングが難しいことがわかります。 EBMはOOD検出に役立つことが証明されていますが、教師ありエネルギーベースのトレーニングと不確実性キャリブレーションに関する他の結果はほとんど否定的です。全体として、CLは現在EBMよりも好ましいオプションのようです。
The availability of clean and diverse labeled data is a major roadblock for training models on complex tasks such as visual question answering (VQA). The extensive work on large vision-and-language models has shown that self-supervised learning is effective for pretraining multimodal interactions. In this technical report, we focus on visual representations. We review and evaluate self-supervised methods to leverage unlabeled images and pretrain a model, which we then fine-tune on a custom VQA task that allows controlled evaluation and diagnosis. We compare energy-based models (EBMs) with contrastive learning (CL). While EBMs are growing in popularity, they lack an evaluation on downstream tasks. We find that both EBMs and CL can learn representations from unlabeled images that enable training a VQA model on very little annotated data. In a simple setting similar to CLEVR, we find that CL representations also improve systematic generalization, and even match the performance of representations from a larger, supervised, ImageNet-pretrained model. However, we find EBMs to be difficult to train because of instabilities and high variability in their results. Although EBMs prove useful for OOD detection, other results on supervised energy-based training and uncertainty calibration are largely negative. Overall, CL currently seems a preferable option over EBMs.
updated: Wed Jun 29 2022 01:44:23 GMT+0000 (UTC)
published: Wed Jun 29 2022 01:44:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト