最近、ビジョン タスク専用に開発された最初の基盤モデルが開発されました。これは、「Segment Anything Model」(SAM) と呼ばれます。 SAM は、1 つ (または複数) のポイント、境界ボックス、またはマスクなどの低コストの入力プロンプトに基づいて、入力画像内のオブジェクトをセグメント化できます。著者らは、多数のビジョン ベンチマーク タスクで SAM のゼロ ショット画像セグメンテーション精度を調べたところ、SAM は通常、ターゲット タスクでトレーニングされたビジョン モデルと同様の、または場合によってはそれを超える認識精度を達成することがわかりました。セグメンテーションのための SAM の印象的な一般化は、自然画像に取り組んでいる視覚研究者に大きな影響を与えます。この作業では、SAM の印象的なパフォーマンスがオーバーヘッド画像の問題にまで及ぶかどうかを調べ、その開発に対するコミュニティの対応を導くのに役立ちます。多様で広く研究されている一連のベンチマーク タスクで SAM のパフォーマンスを調べます。 SAM は多くの場合、頭上画像にうまく一般化できますが、頭上画像とターゲット オブジェクトの固有の特性のために失敗する場合もあります。コミュニティにとって有用な将来の研究を構成する可能性のあるリモート センシング画像のこれらのユニークな体系的な失敗例について報告します。これはワーキングペーパーであり、追加の分析と結果が完了すると更新されることに注意してください。
Recently, the first foundation model developed specifically for vision tasks was developed, termed the "Segment Anything Model" (SAM). SAM can segment objects in input imagery based upon cheap input prompts, such as one (or more) points, a bounding box, or a mask. The authors examined the zero-shot image segmentation accuracy of SAM on a large number of vision benchmark tasks and found that SAM usually achieved recognition accuracy similar to, or sometimes exceeding, vision models that had been trained on the target tasks. The impressive generalization of SAM for segmentation has major implications for vision researchers working on natural imagery. In this work, we examine whether SAM's impressive performance extends to overhead imagery problems, and help guide the community's response to its development. We examine SAM's performance on a set of diverse and widely-studied benchmark tasks. We find that SAM does often generalize well to overhead imagery, although it fails in some cases due to the unique characteristics of overhead imagery and the target objects. We report on these unique systematic failure cases for remote sensing imagery that may comprise useful future research for the community. Note that this is a working paper, and it will be updated as additional analysis and results are completed.