私たちは、自由形式のテキスト記述 (またはキャプション) を使用して地図を作成するための、新しい弱教師ありアプローチを提案します。私たちは、テキスト マップを作成するこの新しい作業ラインをゼロショット マッピングと呼びます。これまでの研究では、俯瞰画像を使用して固定の属性セットを予測するモデルを開発することで、マッピング タスクに取り組んできました。ただし、これらのモデルは、トレーニングされた非常に特殊なタスクのみを解決できるため、非常に制限的です。一方、テキストをマッピングすると、最小限の制限でさまざまなマッピングの問題を解決できます。これを達成するために、私たちは、頭上画像と地上画像のペアからなる新しい大規模データセットで、Sat2Cap と呼ばれる対照学習フレームワークをトレーニングします。特定の場所について、私たちのモデルは、地上レベルの風景の予想される CLIP 埋め込みを予測します。 Sat2Cap は時間情報にも条件付けされており、時間の経過とともに変化する動的な概念を学習できるようになります。私たちの実験結果は、私たちのモデルがきめ細かい概念をうまく捉え、時間的変動に効果的に適応することを示しています。私たちのアプローチでは、テキストラベル付きのデータを必要としないため、トレーニングを簡単に拡張できます。コード、データセット、モデルは一般に公開されます。
We propose a novel weakly supervised approach for creating maps using free-form textual descriptions (or captions). We refer to this new line of work of creating textual maps as zero-shot mapping. Prior works have approached mapping tasks by developing models that predict over a fixed set of attributes using overhead imagery. However, these models are very restrictive as they can only solve highly specific tasks for which they were trained. Mapping text, on the other hand, allows us to solve a large variety of mapping problems with minimal restrictions. To achieve this, we train a contrastive learning framework called Sat2Cap on a new large-scale dataset of paired overhead and ground-level images. For a given location, our model predicts the expected CLIP embedding of the ground-level scenery. Sat2Cap is also conditioned on temporal information, enabling it to learn dynamic concepts that vary over time. Our experimental results demonstrate that our models successfully capture fine-grained concepts and effectively adapt to temporal variations. Our approach does not require any text-labeled data making the training easily scalable. The code, dataset, and models will be made publicly available.