arXiv reaDer
マルチモーダル画像分類のための知識蒸留によるオンラインセンサー幻覚
Online Sensor Hallucination via Knowledge Distillation for Multimodal Image Classification
  情報融合駆動衛星画像/シーン分類の問題に対処し、利用可能なセンサー情報はすべてトレーニング中に存在し、テスト中に画像モダリティの一部が存在しない可能性があることを考慮して、一般的な幻覚アーキテクチャを提案します。さまざまなセンサーが特定の地理的領域の補足情報をキャプチャできることはよく知られており、すべてのソースからの情報を組み込む分類モジュールは、モダリティのサブセットのみを考慮する場合と比較してパフォーマンスが向上することが期待されます。ただし、従来の分類システムでは、モジュールのトレーニングに使用されるすべての機能がテストインスタンスにも存在する必要があります。これは、通常のリモートセンシングアプリケーション(災害管理など)で常に可能とは限りません。救済策として、意思決定段階で利用可能なモダリティから欠落しているモダリティを概算できる幻覚モジュールに関して堅牢なソリューションを提供します。モダリティ幻覚時の知識伝達を改善するために、フレームワークで特権(サイド)情報を探索する目的で知識蒸留の概念を明示的に組み込み、その後、直感的なモジュール式トレーニングアプローチを導入します。提案されたネットワークは、PAN-MS画像ペアの大規模なコーパス(シーン認識)とベンチマークハイパースペクトル画像データセット(画像分類)で広範囲に評価されます。そこでは、さまざまな実験シナリオに従い、提案された幻覚ベースのモジュールセンサー情報の一部が明示的に欠落しているにもかかわらず、マルチソース情報をキャプチャでき、シーンの特性評価を改善します。
We deal with the problem of information fusion driven satellite image/scene classification and propose a generic hallucination architecture considering that all the available sensor information are present during training while some of the image modalities may be absent while testing. It is well-known that different sensors are capable of capturing complementary information for a given geographical area and a classification module incorporating information from all the sources are expected to produce an improved performance as compared to considering only a subset of the modalities. However, the classical classifier systems inherently require all the features used to train the module to be present for the test instances as well, which may not always be possible for typical remote sensing applications (say, disaster management). As a remedy, we provide a robust solution in terms of a hallucination module that can approximate the missing modalities from the available ones during the decision-making stage. In order to ensure better knowledge transfer during modality hallucination, we explicitly incorporate concepts of knowledge distillation for the purpose of exploring the privileged (side) information in our framework and subsequently introduce an intuitive modular training approach. The proposed network is evaluated extensively on a large-scale corpus of PAN-MS image pairs (scene recognition) as well as on a benchmark hyperspectral image dataset (image classification) where we follow different experimental scenarios and find that the proposed hallucination based module indeed is capable of capturing the multi-source information, albeit the explicit absence of some of the sensor information, and aid in improved scene characterization.
updated: Wed Aug 28 2019 05:55:09 GMT+0000 (UTC)
published: Wed Aug 28 2019 05:55:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト