arXiv reaDer
NVAutoNet: 自動運転のための高速かつ正確な 360^∘ 3D 視覚認識
NVAutoNet: Fast and Accurate 360^∘ 3D Visual Perception For Self Driving
自動運転車には、3D 世界の堅牢なリアルタイム認識が不可欠です。当社は、NVAutoNet という自動運転用のエンドツーエンドのサラウンド カメラ認識システムを導入します。 NVAutoNet は、マルチタスク、マルチカメラ ネットワークであり、時間同期されたカメラ画像の可変セットを入力として受け取り、サイズ、方向、障害物の位置、駐車スペース、空きスペースなどの 3D 信号の豊富なコレクションを生成します。 NVAutoNet はモジュール式でエンドツーエンドです: 1) 出力は、クラスタリングや融合などの後処理を行わずに、ダウンストリーム モジュールで直接使用できます -- モデルの展開と車内テストの速度が向上します 2) ネットワーク全体のトレーニング単一ステージで実行され、モデルの改善と反復の速度が向上します。ネットワークは、NVIDIA Orin SoC (システム オン チップ) で 53 fps で動作しながら高精度になるように慎重に設計されています。このネットワークは、センサーの取り付けのばらつき(ある程度の許容範囲内)に対して堅牢であり、効率的なモデルの微調整により、さまざまな車両タイプに合わせて迅速にカスタマイズできます。
Robust, real-time perception of 3D world is essential to the autonomous vehicle. We introduce an end-to-end surround camera perception system, named NVAutoNet, for self-driving. NVAutoNet is a multi-task, multi-camera network which takes a variable set of time-synced camera images as input and produces a rich collection of 3D signals such as sizes, orientations, locations of obstacles, parking spaces and free-spaces, etc. NVAutoNet is modular and end-to-end: 1) the outputs can be consumed directly by downstream modules without any post-processing such as clustering and fusion -- improving speed of model deployment and in-car testing 2) the whole network training is done in one single stage -- improving speed of model improvement and iterations. The network is carefully designed to have high accuracy while running at 53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor mounting variations (within some tolerances) and can be quickly customized for different vehicle types via efficient model fine-tuning.
updated: Fri Aug 25 2023 00:15:14 GMT+0000 (UTC)
published: Thu Mar 23 2023 00:55:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト