arXiv reaDer
HALSIE -- 画像とイベント モダリティを同時に活用することによるセグメンテーションの学習へのハイブリッド アプローチ
HALSIE -- Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities
従来のカメラではダイナミック レンジが制限されており、モーション ブラーが一般的であるため、標準的なフレームベースのアルゴリズムでは、自律ナビゲーションなどの困難なリアルタイム アプリケーションで正確なセグメンテーション マップを取得できません。イベント カメラは、ピクセルごとの強度の変化を非同期的に検出して、時間解像度が高く、ダイナミック レンジが広く、モーション ブラーのないイベント ストリームを生成することで、これらの制限に対処します。ただし、イベント カメラ出力は、動いているピクセルの情報のみをキャプチャするため、信頼性の高いセグメンテーション マップを生成するために直接使用することはできません。欠落しているコンテキスト情報を補強するために、空間的に密なフレームと時間的に密なイベントを融合することで、きめの細かい予測を備えたセマンティック マップを生成できると仮定します。この目的のために、画像とイベントのモダリティを同時に活用することによってセグメンテーションを学習するためのハイブリッド アプローチである HALSIE を提案します。モダリティ全体で効率的な学習を可能にするために、提案されたハイブリッド フレームワークは、対応するニューラル ダイナミクスを活用しながら、イベント データとフレーム データをそれぞれ処理するための 2 つの入力ブランチ、Spiking Neural Network (SNN) ブランチと標準的な人工ニューラル ネットワーク (ANN) ブランチで構成されます。当社のハイブリッド ネットワークは、DDD17 および MVSEC データセットで最先端のセマンティック セグメンテーション ベンチマークを上回り、ネットワーク パラメーターを最大 33.23 倍削減して、DSEC セマンティック データセットで同等のパフォーマンスを示します。さらに、私たちの方法は、既存の SOTA アプローチと比較して最大 18.92 倍の推論コストの改善を示しており、リソースに制約のあるエッジ アプリケーションに適しています。
Standard frame-based algorithms fail to retrieve accurate segmentation maps in challenging real-time applications like autonomous navigation, owing to the limited dynamic range and motion blur prevalent in traditional cameras. Event cameras address these limitations by asynchronously detecting changes in per-pixel intensity to generate event streams with high temporal resolution, high dynamic range, and no motion blur. However, event camera outputs cannot be directly used to generate reliable segmentation maps as they only capture information at the pixels in motion. To augment the missing contextual information, we postulate that fusing spatially dense frames with temporally dense events can generate semantic maps with fine-grained predictions. To this end, we propose HALSIE, a hybrid approach to learning segmentation by simultaneously leveraging image and event modalities. To enable efficient learning across modalities, our proposed hybrid framework comprises two input branches, a Spiking Neural Network (SNN) branch and a standard Artificial Neural Network (ANN) branch to process event and frame data respectively, while exploiting their corresponding neural dynamics. Our hybrid network outperforms the state-of-the-art semantic segmentation benchmarks on DDD17 and MVSEC datasets and shows comparable performance on the DSEC-Semantic dataset with upto 33.23× reduction in network parameters. Further, our method shows upto 18.92× improvement in inference cost compared to existing SOTA approaches, making it suitable for resource-constrained edge applications.
updated: Sat Nov 19 2022 17:09:50 GMT+0000 (UTC)
published: Sat Nov 19 2022 17:09:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト