イベントカメラは、出力イベントの非同期ストリームを通じて明るさの局所的な変化を報告します。イベントはピクセル位置で空間的にまばらで、明るさの変化はほとんどありません。ビジュアルトランスフォーマー(ViT)アーキテクチャを使用して、可変長入力を処理する機能を活用することを提案します。 ViTへの入力は、タイムビンに蓄積され、パッチと呼ばれる重複しないサブ領域に空間的に分離されたイベントで構成されます。サブ領域内のゼロ以外のピクセル位置の数がしきい値を超えると、パッチが選択されます。選択したアクティブなパッチでViTモデルを微調整することにより、推論中にバックボーンに供給されるパッチの平均数を少なくとも50%削減でき、分類精度がわずかに低下(0.34%)するだけであることを示します。 N-Caltech101データセット。この削減は、積和演算(MAC)操作が51%減少し、サーバーCPUを使用した推論速度が46%増加することを意味します。
Event cameras report local changes of brightness through an asynchronous stream of output events. Events are spatially sparse at pixel locations with little brightness variation. We propose using a visual transformer (ViT) architecture to leverage its ability to process a variable-length input. The input to the ViT consists of events that are accumulated into time bins and spatially separated into non-overlapping sub-regions called patches. Patches are selected when the number of nonzero pixel locations within a sub-region is above a threshold. We show that by fine-tuning a ViT model on the selected active patches, we can reduce the average number of patches fed into the backbone during the inference by at least 50% with only a minor drop (0.34%) of the classification accuracy on the N-Caltech101 dataset. This reduction translates into a decrease of 51% in Multiply-Accumulate (MAC) operations and an increase of 46% in the inference speed using a server CPU.