arXiv reaDer
ビジョン モデルは、Few-Shot Task-Aware Compression によって効率的に特殊化できます
Vision Models Can Be Efficiently Specialized via Few-Shot Task-Aware Compression
最近のビジョン アーキテクチャと自己教師ありトレーニング方法により、非常に正確で一般的なビジョン モデルが可能になりますが、膨大なパラメーターと計算コストが伴います。カメラ トラップなどの実際の設定では、ユーザーのリソースは限られており、関心のある特定のカテゴリの小さなセットからの (多くの場合、制限された) データに基づいて事前トレーニング済みのモデルを微調整する場合があります。これらのユーザーは、最新の高精度モデルを利用したいと考えるかもしれませんが、多くの場合、計算上の制約があります。これに対処するために、大規模なジェネラリスト モデルを正確かつ効率的なスペシャリストに迅速に圧縮できますか?このために、Few-Shot Task-Aware Compression (TACO) と呼ばれるシンプルで用途の広い手法を提案します。 ImageNet-22K を介した分類など、幅広いタスクで正確になるように事前トレーニングされた大規模なビジョン モデルが与えられた場合、TACO は、車両の種類や動物種の分類など、特殊なタスクで正確なより小さなモデルを生成します。重要なことは、TACO が少数のショット方式で動作することです。つまり、タスク固有のサンプルが少数しか使用されず、手順の計算オーバーヘッドが低くなります。 ImageNet、LAION、または iNaturalist でトレーニングされた非常に正確な ResNet、ViT/DeiT、および ConvNeXt モデルで TACO を検証します。これらのモデルは専門化され、さまざまな「ダウンストリーム」サブタスクに圧縮されます。 TACO は、既存のモデルのゼロ以外のパラメーターの数を元のモデルと比較して最大 20 倍削減し、最大 3 倍の推論スピードアップを実現しながら、特殊なタスクで圧縮されていないモデルとの精度競争力を維持します。
Recent vision architectures and self-supervised training methods enable vision models that are extremely accurate and general, but come with massive parameter and computational costs. In practical settings, such as camera traps, users have limited resources, and may fine-tune a pretrained model on (often limited) data from a small set of specific categories of interest. These users may wish to make use of modern, highly-accurate models, but are often computationally constrained. To address this, we ask: can we quickly compress large generalist models into accurate and efficient specialists? For this, we propose a simple and versatile technique called Few-Shot Task-Aware Compression (TACO). Given a large vision model that is pretrained to be accurate on a broad task, such as classification over ImageNet-22K, TACO produces a smaller model that is accurate on specialized tasks, such as classification across vehicle types or animal species. Crucially, TACO works in few-shot fashion, i.e. only a few task-specific samples are used, and the procedure has low computational overheads. We validate TACO on highly-accurate ResNet, ViT/DeiT, and ConvNeXt models, originally trained on ImageNet, LAION, or iNaturalist, which we specialize and compress to a diverse set of "downstream" subtasks. TACO can reduce the number of non-zero parameters in existing models by up to 20x relative to the original models, leading to inference speedups of up to 3×, while remaining accuracy-competitive with the uncompressed models on the specialized tasks.
updated: Sat Mar 25 2023 09:22:59 GMT+0000 (UTC)
published: Sat Mar 25 2023 09:22:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト