自動運転車には、3D 世界の堅牢なリアルタイム認識が不可欠です。自動運転用のエンドツーエンドのサラウンド カメラ認識システムを紹介します。私たちの認識システムは、時間同期されたカメラ画像の可変セットを入力として受け取り、サイズ、向き、障害物の位置、駐車スペース、空きスペースなどの豊富な 3D 信号のコレクションを生成する、新しいマルチタスク、マルチカメラ ネットワークです。当社の認識ネットワークはモジュール式でエンドツーエンドです。1) 出力は、クラスタリングやフュージョンなどの後処理なしで、ダウンストリーム モジュールによって直接消費されます。モデルの展開と車内テストの速度が向上します 2。 ) ネットワーク トレーニング全体が 1 つの段階で行われ、モデルの改善と反復の速度が向上します。このネットワークは、NVIDIA Orin SoC (システム オン チップ) で 53 fps で動作している間、高い精度を持つように適切に設計されています。このネットワークは、センサーの取り付けのバリエーションに対して堅牢であり (ある程度の許容範囲内)、トレーニングやテスト中にキャリブレーション パラメーターを追加の入力として取得できるため、効率的なモデルの微調整により、さまざまな車両タイプに合わせてすばやくカスタマイズできます。最も重要なことは、当社のネットワークが正常に展開され、実際の道路でテストされていることです。
Robust real-time perception of 3D world is essential to the autonomous vehicle. We introduce an end-to-end surround camera perception system for self-driving. Our perception system is a novel multi-task, multi-camera network which takes a variable set of time-synced camera images as input and produces a rich collection of 3D signals such as sizes, orientations, locations of obstacles, parking spaces and free-spaces, etc. Our perception network is modular and end-to-end: 1) the outputs can be consumed directly by downstream modules without any post-processing such as clustering and fusion -- improving speed of model deployment and in-car testing 2) the whole network training is done in one single stage -- improving speed of model improvement and iterations. The network is well designed to have high accuracy while running at 53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor mounting variations (within some tolerances) and can be quickly customized for different vehicle types via efficient model fine-tuning thanks of its capability of taking calibration parameters as additional inputs during training and testing. Most importantly, our network has been successfully deployed and being tested on real roads.