arXiv reaDer
SODA10M:自動運転のための大規模な物体検出ベンチマークに向けて
SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving
現実世界の進化し続けるスケーラブルな自動運転システムの促進を目指して、最初で最大の生データから学習することにより、さまざまな自己監視および半教師ありアプローチの評価を標準化するための大規模なベンチマークを提示しますこれまでのベンチマーク。既存の自動運転システムは、安全性を確保するために広範な注釈付きデータを使用してトレーニングされた「完璧な」視覚認識モデル(検出など)に大きく依存しています。ただし、堅牢な自動運転システムを導入する際に、すべてのシナリオと状況(夜間、異常気象、都市など)のインスタンスに詳細にラベルを付けることは非現実的です。自己教師あり学習と半教師あり学習の最近の強力な進歩に動機付けられて、有望な方向性は、大規模なラベルなしデータと少数のラベル付きデータを共同で活用することにより、堅牢な検出モデルを学習することです。既存のデータセット(KITTI、Waymoなど)は、少量のデータのみを提供するか、完全な注釈を付けて限られたドメインをカバーするため、大規模な事前トレーニング済みモデルの探索が妨げられます。ここでは、自動運転用の大規模なオブジェクト検出ベンチマークをリリースします。これはSODA10Mという名前で、6つの代表的なオブジェクトカテゴリでラベル付けされた1,000万のラベルなし画像と20Kの画像が含まれています。多様性を向上させるために、画像は、さまざまな気象条件、期間、および場所のシーンの下で、32の異なる都市内でフレームごとに10秒ごとに収集されます。既存の教師あり最先端の検出モデル、人気のある自己教師ありおよび半教師ありアプローチの広範な実験と詳細な分析、および将来のモデルの開発方法に関するいくつかの洞察を提供します。データと最新情報はhttps://soda-2d.github.ioで公開されています。
Aiming at facilitating a real-world, ever-evolving and scalable autonomous driving system, we present a large-scale benchmark for standardizing the evaluation of different self-supervised and semi-supervised approaches by learning from raw data, which is the first and largest benchmark to date. Existing autonomous driving systems heavily rely on `perfect' visual perception models (e.g., detection) trained using extensive annotated data to ensure the safety. However, it is unrealistic to elaborately label instances of all scenarios and circumstances (e.g., night, extreme weather, cities) when deploying a robust autonomous driving system. Motivated by recent powerful advances of self-supervised and semi-supervised learning, a promising direction is to learn a robust detection model by collaboratively exploiting large-scale unlabeled data and few labeled data. Existing dataset (e.g., KITTI, Waymo) either provides only a small amount of data or covers limited domains with full annotation, hindering the exploration of large-scale pre-trained models. Here, we release a Large-Scale Object Detection benchmark for Autonomous driving, named as SODA10M, containing 10 million unlabeled images and 20K images labeled with 6 representative object categories. To improve diversity, the images are collected every ten seconds per frame within 32 different cities under different weather conditions, periods and location scenes. We provide extensive experiments and deep analyses of existing supervised state-of-the-art detection models, popular self-supervised and semi-supervised approaches, and some insights about how to develop future models. The data and more up-to-date information have been released at https://soda-2d.github.io.
updated: Mon Jun 21 2021 13:55:57 GMT+0000 (UTC)
published: Mon Jun 21 2021 13:55:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト