arXiv reaDer
RGB-Dまたは深度画像からの3Dオブジェクト検出用のFrustum VoxNet
Frustum VoxNet for 3D object detection from RGB-D or Depth images
 最近、RGBおよび3D画像からの分類および検出システムが多数あります。この作業では、RGB-Dまたは深度のみのポイントクラウドからの新しい3Dオブジェクト検出システムについて説明します。私たちのシステムは、最初に2D(RGBまたは深度から構築された擬似RGB)のオブジェクトを検出します。次のステップは、これらの2D検出が定義する3D錐台内の3Dオブジェクトを検出することです。これは、錐台全体を使用する代わりに、錐台の一部をボクセル化することで実現します(錐台は非常に大きくなる可能性があるため)。私たちのシステムの主な新規性は、錐台のどの部分(3D提案)をボクセル化するかを決定することと関係があるため、関心のあるオブジェクトの周りに高解像度の表現を提供できます。また、システムのメモリ要件を削減できます。これらの3D提案は、効率的なResNetベースの3D Fully Convolutional Network(FCN)に送られます。 3D検出システムは高速で、ロボットプラットフォームに統合できます。ボクセル化を実行しないシステム(PointNetなど)に関しては、データセットのサブサンプリングを必要とせずにメソッドを操作できます。また、システムの効率をさらに向上させるパイプラインアプローチも導入しています。 SUN RGB-Dデータセットの結果は、小規模ネットワークに基づいたシステムが1秒あたり20フレームを処理できることを示しており、最新の検出結果に匹敵する検出結果で2倍の高速化を実現しています。
Recently, there have been a plethora of classification and detection systems from RGB as well as 3D images. In this work, we describe a new 3D object detection system from an RGB-D or depth-only point cloud. Our system first detects objects in 2D (either RGB or pseudo-RGB constructed from depth). The next step is to detect 3D objects within the 3D frustums these 2D detections define. This is achieved by voxelizing parts of the frustums (since frustums can be really large), instead of using the whole frustums as done in earlier work. The main novelty of our system has to do with determining which parts (3D proposals) of the frustums to voxelize, thus allowing us to provide high resolution representations around the objects of interest. It also allows our system to have reduced memory requirements. These 3D proposals are fed to an efficient ResNet-based 3D Fully Convolutional Network (FCN). Our 3D detection system is fast and can be integrated into a robotics platform. With respect to systems that do not perform voxelization (such as PointNet), our methods can operate without the requirement of subsampling of the datasets. We have also introduced a pipelining approach that further improves the efficiency of our system. Results on SUN RGB-D dataset show that our system, which is based on a small network, can process 20 frames per second with comparable detection results to the state-of-the-art, achieving a 2 times speedup.
updated: Thu Feb 06 2020 23:59:10 GMT+0000 (UTC)
published: Sat Oct 12 2019 04:06:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト