arXiv reaDer
RemoteCLIP: リモート センシング用のビジョン言語基盤モデル
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
人工知能の分野では、汎用基盤モデルの重要性がますます高まっています。自己教師あり学習 (SSL) とマスク イメージ モデリング (MIM) は、リモート センシング用の基礎モデルの構築において有望な結果をもたらしましたが、これらのモデルは主に低レベルの機能を学習し、微調整には注釈付きデータが必要であり、応用には適用できません。言語理解の欠如により、検索やゼロショット アプリケーションが困難になります。これらの制限に対応して、私たちはリモート センシング用の最初のビジョン言語基盤モデルである RemoteCLIP を提案します。これは、豊富なセマンティクスを備えた堅牢な視覚特徴と、シームレスな下流アプリケーションのための整列されたテキスト埋め込みを学習することを目的としています。事前トレーニング データの不足に対処するために、データ スケーリングを活用し、ボックスからキャプション (B2C) およびマスクからボックス (M2B) 変換に基づいて異種のアノテーションを変換し、さらに UAV 画像を組み込むことで、12 倍の大きな事前トレーニング データセットが得られます。 。 RemoteCLIP は、ゼロショット画像分類、線形プローブ、k-NN 分類、少数ショット分類、画像テキスト検索、オブジェクト計数などのさまざまなダウンストリーム タスクに適用できます。オブジェクトの計数能力をテストするために新しく導入された RemoteCount ベンチマークを含む 16 のデータセットの評価では、RemoteCLIP がさまざまなモデル スケールにわたってベースライン基盤モデルを一貫して上回るパフォーマンスを示しています。印象的なことに、RemoteCLIP は以前の SoTA を、RSICD データセットでは平均再現率 9.14%、RSICD データセットでは 8.92% 上回りました。ゼロショット分類の場合、当社の RemoteCLIP は、12 の下流データセットで最大 6.39% の平均精度で CLIP ベースラインを上回ります。
General-purpose foundation models have become increasingly important in the field of artificial intelligence. While self-supervised learning (SSL) and Masked Image Modeling (MIM) have led to promising results in building such foundation models for remote sensing, these models primarily learn low-level features, require annotated data for fine-tuning, and not applicable for retrieval and zero-shot applications due to the lack of language understanding. In response to these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics, as well as aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling, converting heterogeneous annotations based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion, and further incorporating UAV imagery, resulting a 12xlarger pretraining dataset. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, k-NN classification, few-shot classification, image-text retrieval, and object counting. Evaluations on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, show that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP outperform previous SoTA by 9.14% mean recall on RSICD dataset and by 8.92% on RSICD dataset. For zero-shot classification, our RemoteCLIP outperform CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets.
updated: Mon Jun 19 2023 15:46:41 GMT+0000 (UTC)
published: Mon Jun 19 2023 15:46:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト