arXiv reaDer
自動運転における統合認識のための視覚的模範主導のタスクプロンプト
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving
マルチタスク学習は、さまざまなタスクを計算リソースと推論時間の両方で効率的に同時に解決するための強力なパラダイムとして登場しました。ただし、これらのアルゴリズムは、ほとんどが自動運転の範囲外のさまざまなタスク向けに設計されているため、自動運転におけるマルチタスク方式を比較することは困難です。自動運転における現在のマルチタスク学習方法の包括的な評価を可能にすることを目的として、大規模な運転データセットでの一般的なマルチタスク方法のパフォーマンスを広範囲に調査します。これは、4 つの一般的な認識タスク、つまり、物体検出、セマンティック セグメンテーションをカバーします。 、運転可能エリアのセグメンテーション、車線検出。さまざまな一般的な設定の下で現在のマルチタスク学習方法の詳細な分析を提供し、既存の方法は進歩しているが、単一タスクのベースラインと比較してまだ大きなパフォーマンスギャップがあることを発見しました.自動運転におけるこのジレンマを軽減するために、効果的なマルチタスク フレームワークである VE-Prompt を提示します。これは、タスク固有のプロンプトを介して視覚的な手本を導入し、モデルを高品質のタスク固有の表現の学習に導きます。具体的には、境界ボックスと色ベースのマーカーに基づいて視覚的な見本を生成します。これにより、ターゲット カテゴリの正確な視覚的外観が提供され、パフォーマンスのギャップがさらに軽減されます。さらに、トランスフォーマーベースのエンコーダーと畳み込みレイヤーをブリッジして、自動運転における効率的かつ正確な統合認識を実現します。多様な自動運転データセット BDD100K に関する包括的な実験結果は、VE-Prompt がマルチタスクのベースラインを改善し、シングルタスク モデルをさらに上回ることを示しています。
Multi-task learning has emerged as a powerful paradigm to solve a range of tasks simultaneously with good efficiency in both computation resources and inference time. However, these algorithms are designed for different tasks mostly not within the scope of autonomous driving, thus making it hard to compare multi-task methods in autonomous driving. Aiming to enable the comprehensive evaluation of present multi-task learning methods in autonomous driving, we extensively investigate the performance of popular multi-task methods on the large-scale driving dataset, which covers four common perception tasks, i.e., object detection, semantic segmentation, drivable area segmentation, and lane detection. We provide an in-depth analysis of current multi-task learning methods under different common settings and find out that the existing methods make progress but there is still a large performance gap compared with single-task baselines. To alleviate this dilemma in autonomous driving, we present an effective multi-task framework, VE-Prompt, which introduces visual exemplars via task-specific prompting to guide the model toward learning high-quality task-specific representations. Specifically, we generate visual exemplars based on bounding boxes and color-based markers, which provide accurate visual appearances of target categories and further mitigate the performance gap. Furthermore, we bridge transformer-based encoders and convolutional layers for efficient and accurate unified perception in autonomous driving. Comprehensive experimental results on the diverse self-driving dataset BDD100K show that the VE-Prompt improves the multi-task baseline and further surpasses single-task models.
updated: Fri Mar 03 2023 08:54:06 GMT+0000 (UTC)
published: Fri Mar 03 2023 08:54:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト