現在、イベントを処理する最先端のディープ ニューラル ネットワークは、既製のネットワークを使用する前に、まずイベントを高密度のグリッド状の入力表現に変換します。ただし、タスクに適切な表現を選択するには、従来、表現ごとにニューラル ネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要があり、非常に時間がかかります。この研究では、生のイベントとその表現の間のグロモフ・ワッサーシュタインの不一致 (GWD) に基づいて表現を選択することにより、このボトルネックを解消します。ニューラル ネットワークをトレーニングするよりも約 200 倍高速に計算でき、複数の表現、ネットワーク バックボーン、データセット、タスクにわたるイベント表現のタスク パフォーマンス ランキングを維持します。したがって、タスク スコアが高い表現を見つけることは、GWD が低い表現を見つけることと同じです。私たちはこの洞察を利用して、初めて大規模なイベント表現ファミリーに対してハイパーパラメーター検索を実行し、最先端を超える新しく強力な表現を明らかにしました。当社の最適化された表現は、既存の表現よりも 1 Mpx データセットで 1.7 mAP、Gen1 データセットで 0.3 mAP (確立された 2 つの物体検出ベンチマーク) のパフォーマンスを上回り、mini N-ImageNet ベンチマークで 3.8% 高い分類スコアに達しています。さらに、Gen1 では最先端の手法を 2.1 mAP 上回り、1 Mpx データセットでは最先端のフィードフォワード手法を 6.0 mAP 上回っています。この研究は、イベントベース学習のための明示的表現の最適化という未踏の新しい分野を切り開きます。
Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. This work eliminates this bottleneck by selecting representations based on the Gromov-Wasserstein Discrepancy (GWD) between raw events and their representation. It is about 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, datasets, and tasks. Thus finding representations with high task scores is equivalent to finding representations with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. Our optimized representations outperform existing representations by 1.7 mAP on the 1 Mpx dataset and 0.3 mAP on the Gen1 dataset, two established object detection benchmarks, and reach a 3.8% higher classification score on the mini N-ImageNet benchmark. Moreover, we outperform state-of-the-art by 2.1 mAP on Gen1 and state-of-the-art feed-forward methods by 6.0 mAP on the 1 Mpx datasets. This work opens a new unexplored field of explicit representation optimization for event-based learning.