最新の自動運転車は、知覚のために機械式 LiDAR に大きく依存しています。現在の認識方法では、一般に、LiDAR が方位角をスキャンし、連続した楔形のスライスを取得するときに、連続して収集される 360° の点群が必要です。フルスキャンの取得遅延 (~ 100 ミリ秒) は、安全な操作に有害な時代遅れの認識につながる可能性があります。最近のストリーミング認識の研究では、LiDAR スライスを直接処理し、前のスライスの特徴を再利用してスライスの狭い視野 (FOV) を補償することが提案されました。ただし、これらの作業はすべて単一のモダリティに基づいており、古い可能性がある過去の情報が必要です。一方、高周波カメラからの画像は、LiDAR スライスと比較してより大きな FoV を提供するため、ストリーミング モデルをサポートできます。ただし、FoV のこの違いは、センサーの融合を複雑にします。この研究のギャップに対処するために、革新的なカメラ-LiDAR ストリーミング 3D オブジェクト検出フレームワークを提案します。これは、過去の LiDAR スライスの代わりにカメラ画像を使用して、ストリーミング認識のための最新の高密度で幅広いコンテキストを提供します。提案された方法は、困難な NuScenes ベンチマークで以前のストリーミング モデルよりも優れています。また、はるかに高速でありながら、強力なフルスキャン検出器よりも優れています。私たちの方法は、カメラ画像の欠落、狭い LiDAR スライス、および小さなカメラと LiDAR のミスキャリブレーションに対して堅牢であることが示されています。
Modern autonomous vehicles rely heavily on mechanical LiDARs for perception. Current perception methods generally require 360° point clouds, collected sequentially as the LiDAR scans the azimuth and acquires consecutive wedge-shaped slices. The acquisition latency of a full scan (~ 100ms) may lead to outdated perception which is detrimental to safe operation. Recent streaming perception works proposed directly processing LiDAR slices and compensating for the narrow field of view (FOV) of a slice by reusing features from preceding slices. These works, however, are all based on a single modality and require past information which may be outdated. Meanwhile, images from high-frequency cameras can support streaming models as they provide a larger FoV compared to a LiDAR slice. However, this difference in FoV complicates sensor fusion. To address this research gap, we propose an innovative camera-LiDAR streaming 3D object detection framework that uses camera images instead of past LiDAR slices to provide an up-to-date, dense, and wide context for streaming perception. The proposed method outperforms prior streaming models on the challenging NuScenes benchmark. It also outperforms powerful full-scan detectors while being much faster. Our method is shown to be robust to missing camera images, narrow LiDAR slices, and small camera-LiDAR miscalibration.