arXiv reaDer
身体性知能のための人工視覚皮質を探している私たちはどこにいるのでしょうか?
Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?
事前にトレーニングされた視覚的表現 (PVR) または具現化された AI の視覚的な「基盤モデル」に関する最大かつ最も包括的な実証研究を紹介します。まず、移動、ナビゲーション、器用さ、モバイル操作にまたがる 17 の異なるタスクで構成される CortexBench をキュレートします。次に、既存の PVR を体系的に評価し、いずれも普遍的に優勢ではないことを発見しました。事前トレーニング データの規模と多様性の影響を調べるために、7 つの異なるソース (5.6M 画像以上) からの 4,000 時間を超える自己中心的なビデオと ImageNet を組み合わせて、スライスでマスクされた自動エンコーディング (MAE) を使用してさまざまなサイズのビジョン トランスフォーマーをトレーニングします。このデータの。以前の研究からの推論に反して、データセットのサイズと多様性をスケーリングしても、パフォーマンスが普遍的に改善されるわけではありません (ただし、平均的には改善されます)。 VC-1 と名付けられた当社の最大のモデルは、以前のすべての PVR を平均して上回っていますが、どちらも普遍的に支配しているわけではありません。最後に、VC-1 のタスクまたはドメイン固有の適応が実質的な利益につながり、VC-1 (適応) が CortexBench のすべてのベンチマークで最もよく知られている結果よりも競争力のある、または優れたパフォーマンスを達成することを示します。これらのモデルは、トレーニングに 10,000 GPU 時間以上を必要とし、研究コミュニティの利益のために Web サイトで見つけることができます。
We present the largest and most comprehensive empirical study of pre-trained visual representations (PVRs) or visual 'foundation models' for Embodied AI. First, we curate CortexBench, consisting of 17 different tasks spanning locomotion, navigation, dexterous, and mobile manipulation. Next, we systematically evaluate existing PVRs and find that none are universally dominant. To study the effect of pre-training data scale and diversity, we combine over 4,000 hours of egocentric videos from 7 different sources (over 5.6M images) and ImageNet to train different-sized vision transformers using Masked Auto-Encoding (MAE) on slices of this data. Contrary to inferences from prior work, we find that scaling dataset size and diversity does not improve performance universally (but does so on average). Our largest model, named VC-1, outperforms all prior PVRs on average but does not universally dominate either. Finally, we show that task or domain-specific adaptation of VC-1 leads to substantial gains, with VC-1 (adapted) achieving competitive or superior performance than the best known results on all of the benchmarks in CortexBench. These models required over 10,000 GPU-hours to train and can be found on our website for the benefit of the research community.
updated: Fri Mar 31 2023 17:56:33 GMT+0000 (UTC)
published: Fri Mar 31 2023 17:56:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト