最近、特定の計算期間における計算に最適なモデル サイズ (パラメーターの数) を導き出すために、スケーリング則が採用されています。私たちは、幅や深さなどの計算に最適なモデル形状を推測するためにこのような方法を進歩させ、改良し、これをビジョン トランスフォーマーに正常に実装します。形状が最適化されたビジョン トランスフォーマーである SoViT は、同等のコンピューティング量で事前トレーニングされているにもかかわらず、サイズの 2 倍を超えるモデルと競合する結果を達成します。たとえば、SoViT-400m/14 は、ILSRCV2012 で 90.3% の微調整精度を達成し、はるかに大きい ViT-g/14 を上回り、同一の設定下で ViT-G/14 に近づき、推論コストも半分以下になります。画像分類、キャプション、VQA、ゼロショット転送などの複数のタスクにわたって徹底的な評価を実施し、幅広いドメインにわたるモデルの有効性を実証し、制限を特定します。全体として、私たちの発見は、視覚モデルを盲目的にスケールアップする一般的なアプローチに疑問を投げかけ、より情報に基づいたスケーリングへの道を切り開きます。
Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.