自動運転車(AV)の重要なコンポーネントは、人工知能(AI)が目的の目的地に向かって運転できることです。今日、AIドライバーの開発に取り組むさまざまなパラダイムがあります。一方では、モジュラーパイプラインがあり、運転タスクを知覚や操縦の計画や制御などのサブタスクに分割します。一方、入力された生のセンサーデータから車両制御信号への直接マッピングを学習しようとするエンドツーエンドの運転アプローチが見つかります。後者は比較的研究されていませんが、センサーデータの注釈の点で要求が少ないため人気が高まっています。このホワイトペーパーでは、エンドツーエンドの自動運転に焦点を当てています。これまでのところ、このパラダイムに依存するほとんどの提案は、入力センサーデータとしてRGB画像を想定しています。ただし、AVにはカメラだけでなく、正確な深度情報を提供するアクティブセンサー(LiDARなど)も装備されます。したがって、このペーパーでは、RGBモダリティと深度モダリティを組み合わせる、つまりRGBDデータを使用することで、単一のモダリティに依存するよりも優れたエンドツーエンドのAIドライバーが生成されるかどうかを分析します。マルチセンサーとシングルセンサー(単眼深度推定)の両方の設定で、初期、中期、後期の融合スキームに基づいてマルチモダリティを検討します。 CARLAシミュレーターと条件付き模倣学習(CIL)を使用して、実際、初期の融合マルチモダリティがシングルモダリティよりも優れていることを示します。
A crucial component of an autonomous vehicle (AV) is the artificial intelligence (AI) is able to drive towards a desired destination. Today, there are different paradigms addressing the development of AI drivers. On the one hand, we find modular pipelines, which divide the driving task into sub-tasks such as perception and maneuver planning and control. On the other hand, we find end-to-end driving approaches that try to learn a direct mapping from input raw sensor data to vehicle control signals. The later are relatively less studied, but are gaining popularity since they are less demanding in terms of sensor data annotation. This paper focuses on end-to-end autonomous driving. So far, most proposals relying on this paradigm assume RGB images as input sensor data. However, AVs will not be equipped only with cameras, but also with active sensors providing accurate depth information (e.g., LiDARs). Accordingly, this paper analyses whether combining RGB and depth modalities, i.e. using RGBD data, produces better end-to-end AI drivers than relying on a single modality. We consider multimodality based on early, mid and late fusion schemes, both in multisensory and single-sensor (monocular depth estimation) settings. Using the CARLA simulator and conditional imitation learning (CIL), we show how, indeed, early fusion multimodality outperforms single-modality.