自動運転(AD)データセットは、より深い表現学習を可能にするために、過去数年間でサイズが徐々に大きくなっています。アクティブラーニング(AL)は、注釈コストとデータセットサイズの削減に取り組むために、最近再び注目を集めています。 ALは、ADデータセット、特にLiDARからの点群データについては比較的未踏のままです。この論文は、大規模なセマンティック-KITTIデータセットの(1/4)でALベースのデータセット蒸留の原理的な評価を実行します。さらに、データ拡張(DA)によるモデルのパフォーマンスの向上は、ALループのさまざまなサブセットにわたって示されます。また、DAが注釈を付けるための有益なサンプルの選択をどのように改善するかを示します。データ拡張は、選択したデータセット構成からのサンプルの60%のみを使用して、完全なデータセット精度を達成することを確認しています。これにより、トレーニング時間が短縮され、その後の注釈コストが増加します。
Autonomous driving (AD) datasets have progressively grown in size in the past few years to enable better deep representation learning. Active learning (AL) has re-gained attention recently to address reduction of annotation costs and dataset size. AL has remained relatively unexplored for AD datasets, especially on point cloud data from LiDARs. This paper performs a principled evaluation of AL based dataset distillation on (1/4th) of the large Semantic-KITTI dataset. Further on, the gains in model performance due to data augmentation (DA) are demonstrated across different subsets of the AL loop. We also demonstrate how DA improves the selection of informative samples to annotate. We observe that data augmentation achieves full dataset accuracy using only 60% of samples from the selected dataset configuration. This provides faster training time and subsequent gains in annotation costs.