arXiv reaDer
リモート センシング画像の 10 億規模の基盤モデル
A Billion-scale Foundation Model for Remote Sensing Images
ビジュアル タスクにおける基盤モデルの可能性が大きな注目を集めているため、ダウンストリーム タスクの前にこれらのモデルを事前トレーニングすることが重要なステップになっています。基礎モデルの事前トレーニングにおける 3 つの重要な要素は、事前トレーニング方法、事前トレーニング データセットのサイズ、およびモデル パラメーターの数です。最近、リモートセンシング分野の研究は、主に事前トレーニング方法とデータセットのサイズに焦点を当てており、モデルパラメーターの数にはあまり重点が置かれていません。このホワイト ペーパーでは、回転オブジェクトの検出やセマンティック セグメンテーションなどのダウンストリーム タスクにおける基礎モデルのパフォーマンスに対するモデル パラメーターの数の増加の影響を調べることによって、このギャップに対処します。 86M、605.26M、1.3B、および 2.4B を含むさまざまな数のパラメーターを使用して基礎モデルを事前トレーニングし、パラメーターの増加によってダウンストリーム タスクのパフォーマンスが向上するかどうかを判断しました。私たちの知る限りでは、これはリモート センシング分野における最初の 10 億規模の基盤モデルです。さらに、リモートセンシング分野でビジョントランスをスケールアップおよび微調整するための効果的な方法を提案します。ダウンストリーム タスクの一般的なパフォーマンスを評価するために、回転オブジェクトの検出には DOTA v2.0 および DIOR-R ベンチマーク データセットを使用し、セマンティック セグメンテーションには Potsdam および LoveDA データセットを使用しました。実験結果は、すべてのベンチマーク データセットとダウンストリーム タスクにわたって、基本モデルのパフォーマンスとデータ効率がパラメーター数の増加に伴って向上することを示しました。さらに、私たちのモデルは、DIOR-R、Postdam、LoveDA などのいくつかのデータセットで最先端のパフォーマンスを実現しています。
As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
updated: Tue May 14 2024 06:33:02 GMT+0000 (UTC)
published: Tue Apr 11 2023 13:33:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト