イベントカメラは、アクティビティ駆動型のバイオインスパイアードビジョンセンサーであるため、スパース性、高い時間分解能、低遅延、消費電力などの利点があります。イベントカメラの異なるセンシングモダリティと従来のビジョンパラダイムの高品質を考えると、イベント処理は主に、スパースイベントと非同期イベントを2Dグリッドに変換し、続いて標準のビジョンパイプラインを適用することによって解決されます。 2Dグリッド生成の教師あり学習アプローチによって示される有望な結果にもかかわらず、これらのアプローチは教師ありの方法でタスクを処理します。ラベル付けされたタスク固有のグラウンドトゥルースイベントデータの取得は困難です。この制限を克服するために、イベントシーケンスから2Dグリッド表現を学習するための有望な代替手段として、LSTMレイヤーで構成される教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案します。競合する教師ありアプローチと比較して、私たちのアプローチは、タスク固有のラベル付きデータが不足しているイベントドメインに最適なタスクに依存しないアプローチです。また、提案されたソリューションを調整して、イベントストリームの非同期性を活用します。これにより、速度不変やエネルギー効率の高い2Dグリッド生成などの望ましい特性が得られます。さらに、ノイズ除去プロセスにメモリを導入することで、最先端のイベントのノイズ除去を推進します。アクティビティ認識とジェスチャ認識の評価は、ラベルのないデータから学習する柔軟性を提供しながら、私たちのアプローチが最先端のアプローチよりも改善されることを示しています。
Event cameras are activity-driven bio-inspired vision sensors, thereby resulting in advantages such as sparsity,high temporal resolution, low latency, and power consumption. Given the different sensing modality of event camera and high quality of conventional vision paradigm, event processing is predominantly solved by transforming the sparse and asynchronous events into 2D grid and subsequently applying standard vision pipelines. Despite the promising results displayed by supervised learning approaches in 2D grid generation, these approaches treat the task in supervised manner. Labeled task specific ground truth event data is challenging to acquire. To overcome this limitation, we propose Event-LSTM, an unsupervised Auto-Encoder architecture made up of LSTM layers as a promising alternative to learn 2D grid representation from event sequence. Compared to competing supervised approaches, ours is a task-agnostic approach ideally suited for the event domain, where task specific labeled data is scarce. We also tailor the proposed solution to exploit asynchronous nature of event stream, which gives it desirable charateristics such as speed invariant and energy-efficient 2D grid generation. Besides, we also push state-of-the-art event de-noising forward by introducing memory into the de-noising process. Evaluations on activity recognition and gesture recognition demonstrate that our approach yields improvement over state-of-the-art approaches, while providing the flexibilty to learn from unlabelled data.