世界を上から見ると、土地被覆の種類や予想される土地利用など、特定の場所の多くの特性を推定することができます。歴史的に、このようなタスクは、きめの細かい注釈を取得するのが難しいため、比較的きめの粗いカテゴリに依存してきました。この作業では、オーバーヘッド画像から詳細なプロパティを推定することを可能にする、簡単に拡張可能なアプローチを提案します。具体的には、オーバーヘッド画像の手動注釈を必要とせずに、オーバーヘッド画像から詳細なプロパティの分布を予測することを学習するためのクロスモーダル蒸留戦略を提案します。学習したモデルは、マッピングと画像のローカリゼーションのアプリケーションに直接使用できることを示します。
Looking at the world from above, it is possible to estimate many properties of a given location, including the type of land cover and the expected land use. Historically, such tasks have relied on relatively coarse-grained categories due to the difficulty of obtaining fine-grained annotations. In this work, we propose an easily extensible approach that makes it possible to estimate fine-grained properties from overhead imagery. In particular, we propose a cross-modal distillation strategy to learn to predict the distribution of fine-grained properties from overhead imagery, without requiring any manual annotation of overhead imagery. We show that our learned models can be used directly for applications in mapping and image localization.