arXiv reaDer
EvDistill:双方向の再構築ガイド付きクロスモーダル知識蒸留によるタスク学習を終了するための非同期イベント
EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation
イベントカメラは、ピクセルごとの強度の変化を感知し、ダイナミックレンジが高く、モーションブラーが少ない非同期イベントストリームを生成します。これは、従来のカメラよりも優れています。イベントベースのモデルをトレーニングする際のハードルは、定性的なラベル付きデータが不足していることです。エンドタスクを学習する以前の作業は、ほとんどの場合、アクティブピクセルセンサー(APS)フレームから取得したラベル付きまたは疑似ラベル付きのデータセットに依存しています。ただし、そのようなデータセットの品質は、標準的な画像に基づくものに匹敵するものではありません。この論文では、EvDistillと呼ばれる新しいアプローチを提案し、大規模なラベル付き画像データ(ソースモダリティ)。ペアになっていないモダリティ全体でKDを有効にするために、最初に双方向モダリティ再構築(BMR)モジュールを提案して、両方のモダリティをブリッジし、同時にそれらを活用して、細工されたペアを介して知識を抽出し、推論で余分な計算を行わないようにします。 BMRは、エンドツーエンドの方法でエンドタスクとKD損失によって改善されます。次に、両方のモダリティの構造的類似性を活用し、それらの分布を一致させることによって知識を適応させます。さらに、ほとんどの以前の機能のKDメソッドは単一モダリティであり、問題への適用性が低いため、アフィニティグラフのKD損失を活用して蒸留を促進することを提案します。セマンティックセグメンテーションとオブジェクト認識に関する私たちの広範な実験は、EvDistillが以前の作品やイベントとAPSフレームのみのKDよりも大幅に優れた結果を達成することを示しています。
Event cameras sense per-pixel intensity changes and produce asynchronous event streams with high dynamic range and less motion blur, showing advantages over conventional cameras. A hurdle of training event-based models is the lack of large qualitative labeled data. Prior works learning end-tasks mostly rely on labeled or pseudo-labeled datasets obtained from the active pixel sensor (APS) frames; however, such datasets' quality is far from rivaling those based on the canonical images. In this paper, we propose a novel approach, called EvDistill, to learn a student network on the unlabeled and unpaired event data (target modality) via knowledge distillation (KD) from a teacher network trained with large-scale, labeled image data (source modality). To enable KD across the unpaired modalities, we first propose a bidirectional modality reconstruction (BMR) module to bridge both modalities and simultaneously exploit them to distill knowledge via the crafted pairs, causing no extra computation in the inference. The BMR is improved by the end-tasks and KD losses in an end-to-end manner. Second, we leverage the structural similarities of both modalities and adapt the knowledge by matching their distributions. Moreover, as most prior feature KD methods are uni-modality and less applicable to our problem, we propose to leverage an affinity graph KD loss to boost the distillation. Our extensive experiments on semantic segmentation and object recognition demonstrate that EvDistill achieves significantly better results than the prior works and KD with only events and APS frames.
updated: Wed Nov 24 2021 08:48:16 GMT+0000 (UTC)
published: Wed Nov 24 2021 08:48:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト