ニューロモルフィックビジョンは、コンピュータービジョンコミュニティのパラダイムシフトを引き起こし、多数のアプリケーションのキーイネーブラーとして機能しているバイオインスパイアードテクノロジーです。このテクノロジーは、消費電力の削減、処理の必要性の削減、通信の高速化など、大きな利点をもたらしました。ただし、ニューロモルフィックカメラはかなりの量の測定ノイズに悩まされています。このノイズは、ニューロモルフィックイベントベースの知覚およびナビゲーションアルゴリズムのパフォーマンスを低下させます。本論文では、観測されたシーンの実際の対数強度の変動を表さないイベントを排除するための新しいノイズフィルタリングアルゴリズムを提案します。 GNN-Transformerと呼ばれるGraphNeuralNetwork(GNN)駆動のトランスフォーマーアルゴリズムを使用して、生のストリーム内のすべてのアクティブなイベントピクセルを実際のログ強度の変動またはノイズに分類します。 GNN内では、EventConvと呼ばれるメッセージパッシングフレームワークが実行され、イベント間の非同期性を維持しながら、イベント間の時空間相関を反映します。また、さまざまな照明条件下でイベントストリームのおおよそのグラウンドトゥルースラベルを生成するための既知オブジェクトグラウンドトゥルースラベリング(KoGTL)アプローチを紹介します。 KoGTLは、厳しい照明条件で記録された実験から、ラベル付けされたデータセットを生成するために使用されます。これらのデータセットは、提案されたアルゴリズムをトレーニングして広範囲にテストするために使用されます。目に見えないデータセットでテストした場合、提案されたアルゴリズムは、フィルタリングの精度の点で既存の方法を8.8%上回っています。公開されているデータセットに対して追加のテストも実施され、照明の変化やさまざまなモーションダイナミクスが存在する場合の提案されたアルゴリズムの一般化機能が実証されます。既存のソリューションと比較して、定性的な結果は、意味のあるシーンイベントを維持しながらノイズを除去する提案されたアルゴリズムの優れた機能を検証しました。
Neuromorphic vision is a bio-inspired technology that has triggered a paradigm shift in the computer-vision community and is serving as a key-enabler for a multitude of applications. This technology has offered significant advantages including reduced power consumption, reduced processing needs, and communication speed-ups. However, neuromorphic cameras suffer from significant amounts of measurement noise. This noise deteriorates the performance of neuromorphic event-based perception and navigation algorithms. In this paper, we propose a novel noise filtration algorithm to eliminate events which do not represent real log-intensity variations in the observed scene. We employ a Graph Neural Network (GNN)-driven transformer algorithm, called GNN-Transformer, to classify every active event pixel in the raw stream into real-log intensity variation or noise. Within the GNN, a message-passing framework, called EventConv, is carried out to reflect the spatiotemporal correlation among the events, while preserving their asynchronous nature. We also introduce the Known-object Ground-Truth Labeling (KoGTL) approach for generating approximate ground truth labels of event streams under various illumination conditions. KoGTL is used to generate labeled datasets, from experiments recorded in chalenging lighting conditions. These datasets are used to train and extensively test our proposed algorithm. When tested on unseen datasets, the proposed algorithm outperforms existing methods by 8.8% in terms of filtration accuracy. Additional tests are also conducted on publicly available datasets to demonstrate the generalization capabilities of the proposed algorithm in the presence of illumination variations and different motion dynamics. Compared to existing solutions, qualitative results verified the superior capability of the proposed algorithm to eliminate noise while preserving meaningful scene events.