arXiv reaDer
イベントベースの視覚運動政策のための表現学習
Representation Learning for Event-based Visuomotor Policies
イベントベースのカメラは、マイクロ秒レベルでピクセルごとの明るさの変化を非同期で測定する動的ビジョンセンサーです。これにより、従来のフレームベースのカメラよりも大幅に高速になり、高速ナビゲーションに魅力的な選択肢になります。興味深いセンサーモダリティですが、この非同期ストリーミングイベントデータは、フレームベースのデータにより適した機械学習技術に課題をもたらします。この論文では、イベント変分オートエンコーダを提示し、非同期時空間イベントデータから直接コンパクトな表現を学習することが可能であることを示します。さらに、そのような事前訓練された表現は、エンドツーエンドの報酬主導の知覚の代わりに、イベントベースの強化学習に使用できることを示します。シミュレーションの障害物回避シナリオに適用することにより、イベントベースの視覚運動ポリシーを学習するこのフレームワークを検証します。イベントデータを画像として扱う手法と比較して、イベントストリームから学習した表現により、ポリシートレーニングが高速化され、さまざまな制御能力に適応し、高度な堅牢性が実証されることを示します。
Event-based cameras are dynamic vision sensors that provide asynchronous measurements of changes in per-pixel brightness at a microsecond level. This makes them significantly faster than conventional frame-based cameras, and an appealing choice for high-speed navigation. While an interesting sensor modality, this asynchronously streamed event data poses a challenge for machine learning techniques that are more suited for frame-based data. In this paper, we present an event variational autoencoder and show that it is feasible to learn compact representations directly from asynchronous spatiotemporal event data. Furthermore, we show that such pretrained representations can be used for event-based reinforcement learning instead of end-to-end reward driven perception. We validate this framework of learning event-based visuomotor policies by applying it to an obstacle avoidance scenario in simulation. Compared to techniques that treat event data as images, we show that representations learnt from event streams result in faster policy training, adapt to different control capacities, and demonstrate a higher degree of robustness.
updated: Thu Sep 30 2021 01:34:11 GMT+0000 (UTC)
published: Mon Mar 01 2021 07:04:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト