データは機械学習の原動力であり、トレーニングデータの量と質は、アーキテクチャやトレーニングの詳細よりもシステムのパフォーマンスにとって重要であることがよくあります。しかし、実際のデータを大規模に収集、処理、および注釈を付けることは困難で費用がかかり、プライバシー、公平性、および法的な懸念が高まることがよくあります。合成データは、これらの欠点に対処する可能性のある強力なツールです。1)安価です。2)豊富なグラウンドトゥルースアノテーションをサポートします。3)データを完全に制御します。4)バイアス、プライバシー、ライセンスに関する問題を回避または軽減できます。残念ながら、効果的なデータ生成のためのソフトウェアツールは、アーキテクチャの設計とトレーニングのためのソフトウェアツールよりも成熟しておらず、生成作業の断片化につながります。これらの問題に対処するために、PyBulletおよびBlenderとインターフェイスして豊富なアノテーションを備えたフォトリアリスティックなシーンを生成し、数千台のマシンに分散された大規模なジョブにシームレスにスケーリングし、TBのデータを生成するオープンソースのPythonフレームワークであるKubricを紹介します。 3D NeRFモデルの研究からオプティカルフローの推定に至るまでのタスクに対して、生成された一連の13の異なるデータセットを提示することにより、Kubricの有効性を示します。 Kubric、使用済みアセット、すべての生成コード、および再利用と変更のためにレンダリングされたデータセットをリリースします。
Data is the driving force of machine learning, with the amount and quality of training data often being more important for the performance of a system than architecture and training details. But collecting, processing and annotating real data at scale is difficult, expensive, and frequently raises additional privacy, fairness and legal concerns. Synthetic data is a powerful tool with the potential to address these shortcomings: 1) it is cheap 2) supports rich ground-truth annotations 3) offers full control over data and 4) can circumvent or mitigate problems regarding bias, privacy and licensing. Unfortunately, software tools for effective data generation are less mature than those for architecture design and training, which leads to fragmented generation efforts. To address these problems we introduce Kubric, an open-source Python framework that interfaces with PyBullet and Blender to generate photo-realistic scenes, with rich annotations, and seamlessly scales to large jobs distributed over thousands of machines, and generating TBs of data. We demonstrate the effectiveness of Kubric by presenting a series of 13 different generated datasets for tasks ranging from studying 3D NeRF models to optical flow estimation. We release Kubric, the used assets, all of the generation code, as well as the rendered datasets for reuse and modification.