arXiv reaDer
VINet: 3D オブジェクト検出のための軽量でスケーラブルな異種協調認識
VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection
人工知能 (AI) の最新の進歩を利用して、コンピューター ビジョン コミュニティは現在、あらゆる種類の認識タスク、特に物体検出において前例のない進化を目の当たりにしています。複数の空間的に分離された認識ノードに基づいて、協調的認識 (CP) が登場し、自動運転の認識が大幅に進歩しました。ただし、現在の協調オブジェクト検出方法は、システム全体のコストの実際的な問題を考慮せずに、主に自車両の効率に焦点を当てています。このホワイト ペーパーでは、スケーラブルで軽量な異種協調 3D オブジェクト検出のための統合されたディープラーニング ベースの CP ネットワークである VINet を紹介します。 VINet は、大規模なシステム レベルの実装の観点から設計された最初の CP 手法であり、次の 3 つの主なフェーズに分けることができます。軽量な方法; 2) スケーラブルで異種の認識ノードの機能を融合する 2 ストリーム フュージョン。 3) 融合した特徴をさらに処理し、協調的な検出結果を生成する中央特徴バックボーンと 3D 検出ヘッド。 CP データセットの取得のために協調的な知覚プラットフォームが設計および開発され、実験中にいくつかのベースラインが比較されます。実験的分析は、VINet が、システム全体の計算コストを 2 分の 1、システム全体の通信コストを 12 分の 1 に抑えて、歩行者と車の顕著な改善を達成できることを示しています。
Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. A cooperative perception platform is designed and developed for CP dataset acquisition and several baselines are compared during the experiments. The experimental analysis shows that VINet can achieve remarkable improvements for pedestrians and cars with 2x less system-wide computational costs and 12x less system-wide communicational costs.
updated: Wed Dec 14 2022 07:03:23 GMT+0000 (UTC)
published: Wed Dec 14 2022 07:03:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト