arXiv reaDer
LongShortNet: 時間的特徴と意味的特徴の探索 ストリーミング認識における融合
LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception
ストリーミング認識は、自動操縦システムの遅延と精度の間の慎重なバランスを必要とする自動運転の基本的なタスクです。ただし、ストリーミング認識の現在の方法は、現在および隣接する 2 つのフレームのみに依存して動きのパターンを学習するため、制限があり、複雑なシーンをモデル化する能力が制限され、多くの場合、検出結果が低下します。この制限に対処するために、LongShortNet を提案します。これは、長期的な一時的な動きをキャプチャし、それをリアルタイムの知覚のために短期的な空間セマンティクスと統合する新しいデュアルパス ネットワークです。私たちが提案したLongShortNetは、長期的な時間モデリングをストリーミング知覚に拡張し、時空間特徴の融合を可能にする最初の作品であるため、注目に値します。困難な Argoverse-HD データセットで LongShortNet を評価し、追加の計算コストがほとんどない既存の最先端の方法よりも優れていることを実証します。
Streaming perception is a fundamental task in autonomous driving that requires a careful balance between the latency and accuracy of the autopilot system. However, current methods for streaming perception are limited as they rely only on the current and adjacent two frames to learn movement patterns, which restricts their ability to model complex scenes, often leading to poor detection results. To address this limitation, we propose LongShortNet, a novel dual-path network that captures long-term temporal motion and integrates it with short-term spatial semantics for real-time perception. Our proposed LongShortNet is notable as it is the first work to extend long-term temporal modeling to streaming perception, enabling spatiotemporal feature fusion. We evaluate LongShortNet on the challenging Argoverse-HD dataset and demonstrate that it outperforms existing state-of-the-art methods with almost no additional computational cost.
updated: Mon Mar 27 2023 02:08:57 GMT+0000 (UTC)
published: Thu Oct 27 2022 14:57:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト