arXiv reaDer
iLabel:インタラクティブなニューラルシーンのラベリング
iLabel: Interactive Neural Scene Labelling
3Dニューラルフィールドを使用したジオメトリ、色、セマンティクスの共同表現により、ユーザーがハンドヘルドRGB-Dセンサーを使用してリアルタイムでシーンを再構築するときに、超疎な相互作用から正確な高密度ラベリングが可能になります。私たちのiLabelシステムはトレーニングデータを必要としませんが、大規模で高価なラベルの付いた画像データセットでトレーニングされた標準的な方法よりも正確にシーンに高密度にラベルを付けることができます。さらに、ユーザーがその場で定義したセマンティッククラスを使用して、「オープンセット」方式で機能します。 iLabelの基礎となるモデルは、関節の神経シーン表現を学習するためにリアルタイムでゼロからトレーニングされた多層パーセプトロン(MLP)です。シーンモデルはリアルタイムで更新および視覚化されるため、ユーザーはインタラクションに集中して効率的なラベリングを実現できます。部屋または同様のシーンは、数十回のクリックで10以上のセマンティックカテゴリに正確にラベル付けできます。定量的なラベリングの精度は、クリック数に応じて強力にスケーリングされ、事前にトレーニングされた標準のセマンティックセグメンテーション方法を急速に上回ります。また、階層的なラベリングバリアントも示します。
Joint representation of geometry, colour and semantics using a 3D neural field enables accurate dense labelling from ultra-sparse interactions as a user reconstructs a scene in real-time using a handheld RGB-D sensor. Our iLabel system requires no training data, yet can densely label scenes more accurately than standard methods trained on large, expensively labelled image datasets. Furthermore, it works in an 'open set' manner, with semantic classes defined on the fly by the user. iLabel's underlying model is a multilayer perceptron (MLP) trained from scratch in real-time to learn a joint neural scene representation. The scene model is updated and visualised in real-time, allowing the user to focus interactions to achieve efficient labelling. A room or similar scene can be accurately labelled into 10+ semantic categories with only a few tens of clicks. Quantitative labelling accuracy scales powerfully with the number of clicks, and rapidly surpasses standard pre-trained semantic segmentation methods. We also demonstrate a hierarchical labelling variant.
updated: Mon Nov 29 2021 15:49:20 GMT+0000 (UTC)
published: Mon Nov 29 2021 15:49:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト