arXiv reaDer
TOV:自己監視学習による光学リモートセンシング画像理解のためのオリジナルビジョンモデル
TOV: The Original Vision Model for Optical Remote Sensing Image Understanding via Self-supervised Learning
ラベルフリーでタスクに依存しない方法で人間の視覚を使用するのではなく、教師ありデータに依存する方法とタスクに依存する方法でモデルをトレーニングすることにより、リモートセンシング画像理解(RSIU)を正しく行うことができますか?より望ましいRSIUモデルは、広範囲のRSIUタスクにわたって一般化可能性を実現するために、外部の人間のラベルではなく、データからの固有の構造でトレーニングする必要があると主張します。この仮説に従って、リモートセンシング分野でオリジナルビジョンモデル(TOV)を提案しました。一般知識から専門知識までの人間のような自己教師あり学習(SSL)パスに沿った大量のラベルなし光学データによってトレーニングされた、TOVモデルは、シーン分類、オブジェクト検出、セマンティックセグメンテーションなどのさまざまなRSIUタスクに簡単に適応できます。また、12の公開されているベンチマークの大部分で、主要なImageNetの教師あり事前トレーニング方法と、最近提案された2つのSSL事前トレーニング方法を上回っています。さらに、RSIUのTOVモデルの構築のパフォーマンスに対する、2つの主要な要因の影響を分析します。これには、さまざまなデータサンプリング方法の使用や、自己監視最適化中の学習パスの選択の影響が含まれます。ラベルフリーでタスクに依存しない方法でトレーニングされた一般的なモデルがRSIUの次のパラダイムになる可能性があると考えており、この調査から得られた洞察がRSIUの独自のビジョンモデルの開発に役立つことを願っています。
Do we on the right way for remote sensing image understanding (RSIU) by training models via supervised data-dependent and task-dependent way, instead of human vision in a label-free and task-independent way? We argue that a more desirable RSIU model should be trained with intrinsic structure from data rather that extrinsic human labels to realize generalizability across a wide range of RSIU tasks. According to this hypothesis, we proposed The Original Vision model (TOV) in remote sensing filed. Trained by massive unlabeled optical data along a human-like self-supervised learning (SSL) path that is from general knowledge to specialized knowledge, TOV model can be easily adapted to various RSIU tasks, including scene classification, object detection, and semantic segmentation, and outperforms dominant ImageNet supervised pretrained method as well as two recently proposed SSL pretrained methods on majority of 12 publicly available benchmarks. Moreover, we analyze the influences of two key factors on the performance of building TOV model for RSIU, including the influence of using different data sampling methods and the selection of learning paths during self-supervised optimization. We believe that a general model which is trained by a label-free and task-independent way may be the next paradigm for RSIU and hope the insights distilled from this study can help to foster the development of an original vision model for RSIU.
updated: Sun Apr 10 2022 16:25:05 GMT+0000 (UTC)
published: Sun Apr 10 2022 16:25:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト