車線検出は、自動運転において重要な役割を果たします。車のカメラは常に途中でストリーミングビデオを撮影しますが、現在の車線検出は、ビデオに沿ったダイナミクスを無視することにより、主に個々の画像(フレーム)に焦点を合わせています。この作業では、さまざまな実際の交通シナリオから取得した、合計10,000フレームの100本のビデオを含む新しいビデオインスタンスレーン検出(VIL-100)データセットを収集します。各ビデオのすべてのフレームは、高品質のインスタンスレベルのレーン注釈に手動で注釈が付けられ、定量的なパフォーマンス評価のために、フレームレベルとビデオレベルのメトリックのセットが含まれています。さらに、ビデオインスタンスレーン検出のために、マルチレベルメモリアグリゲーションネットワーク(MMA-Net)という名前の新しいベースラインモデルを提案します。私たちのアプローチでは、現在のフレームの表現は、他のフレームからローカルとグローバルの両方のメモリ機能を注意深く集約することによって強化されます。新しく収集されたデータセットでの実験は、提案されたMMA-Netが最先端のレーン検出方法およびビデオオブジェクトセグメンテーション方法よりも優れていることを示しています。データセットとコードはhttps://github.com/yujun0-0/MMA-Netでリリースしています。
Lane detection plays a key role in autonomous driving. While car cameras always take streaming videos on the way, current lane detection works mainly focus on individual images (frames) by ignoring dynamics along the video. In this work, we collect a new video instance lane detection (VIL-100) dataset, which contains 100 videos with in total 10,000 frames, acquired from different real traffic scenarios. All the frames in each video are manually annotated to a high-quality instance-level lane annotation, and a set of frame-level and video-level metrics are included for quantitative performance evaluation. Moreover, we propose a new baseline model, named multi-level memory aggregation network (MMA-Net), for video instance lane detection. In our approach, the representation of current frame is enhanced by attentively aggregating both local and global memory features from other frames. Experiments on the new collected dataset show that the proposed MMA-Net outperforms state-of-the-art lane detection methods and video object segmentation methods. We release our dataset and code at https://github.com/yujun0-0/MMA-Net.