arXiv reaDer
VINet: 3D オブジェクト検出のための軽量でスケーラブルな異種協調認識
VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection
人工知能 (AI) の最新の進歩を利用して、コンピューター ビジョン コミュニティは現在、あらゆる種類の認識タスク、特に物体検出において前例のない進化を目の当たりにしています。複数の空間的に分離された認識ノードに基づいて、協調的認識 (CP) が登場し、自動運転の認識が大幅に進歩しました。ただし、現在の協調オブジェクト検出方法は、システム全体のコストの実際的な問題を考慮せずに、主に自車両の効率に焦点を当てています。このホワイト ペーパーでは、スケーラブルで軽量な異種協調 3D オブジェクト検出のための統合されたディープラーニング ベースの CP ネットワークである VINet を紹介します。 VINet は、大規模なシステム レベルの実装の観点から設計された最初の CP 手法であり、次の 3 つの主なフェーズに分けることができます。軽量な方法; 2) スケーラブルで異種の認識ノードの機能を融合する 2 ストリーム フュージョン。 3) 融合した特徴をさらに処理し、協調的な検出結果を生成する中央特徴バックボーンと 3D 検出ヘッド。オープン ソース データ実験プラットフォームは、CP データセットの取得とモデル評価のために設計および開発されています。実験的分析は、VINet が 3D 検出精度を向上させながら、システム レベルの計算コストを 84% 削減し、システム レベルの通信コストを 94% 削減できることを示しています。
Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. An open-source data experimental platform is designed and developed for CP dataset acquisition and model evaluation. The experimental analysis shows that VINet can reduce 84% system-level computational cost and 94% system-level communication cost while improving the 3D detection accuracy.
updated: Wed Mar 22 2023 02:44:57 GMT+0000 (UTC)
published: Wed Dec 14 2022 07:03:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト