シーン レベルの注釈を使用した点群のセグメンテーションは有望ですが、困難な作業です。現在、最も一般的な方法は、クラス アクティベーション マップ (CAM) を使用して識別領域を特定し、シーン レベルの注釈からポイント レベルの疑似ラベルを生成することです。ただし、これらの方法は常に、カテゴリ間の点の不均衡、および CAM によるまばらで不完全な監視に悩まされます。この論文では、シーンレベルの注釈からポイントごとのラベルを学習するという課題に立ち向かうために、WHCN と呼ばれる新しい重み付きハイパーグラフ畳み込みネットワークベースの方法を提案します。まず、異なるカテゴリ間の点の不均衡を同時に克服し、モデルの複雑さを軽減するために、幾何学的に均一なパーティションを利用してトレーニング点群のスーパーポイントを生成します。次に、シーンレベルの注釈から変換された信頼性の高いスーパーポイントレベルのシードに基づいて、ハイパーグラフが構築されます。次に、WHCN はハイパーグラフを入力として受け取り、ラベル伝搬によって高精度のポイント レベルの疑似ラベルを予測することを学習します。スペクトル ハイパーグラフ畳み込みブロックで構成されるバックボーン ネットワークに加えて、WHCN 内のハイパーエッジの重みを調整するためにハイパーエッジ アテンション モジュールが学習されます。最後に、これらの疑似点群ラベルによってセグメンテーション ネットワークがトレーニングされます。 ScanNet と S3DIS のセグメンテーション データセットを総合的に実験します。実験結果は、提案された WHCN がシーンの注釈を使用してポイント ラベルを予測するのに効果的であり、コミュニティで最先端の結果をもたらすことを示しています。ソース コードは、http://zhiyongsu.github.io/Project/WHCN.html で入手できます。
Point cloud segmentation with scene-level annotations is a promising but challenging task. Currently, the most popular way is to employ the class activation map (CAM) to locate discriminative regions and then generate point-level pseudo labels from scene-level annotations. However, these methods always suffer from the point imbalance among categories, as well as the sparse and incomplete supervision from CAM. In this paper, we propose a novel weighted hypergraph convolutional network-based method, called WHCN, to confront the challenges of learning point-wise labels from scene-level annotations. Firstly, in order to simultaneously overcome the point imbalance among different categories and reduce the model complexity, superpoints of a training point cloud are generated by exploiting the geometrically homogeneous partition. Then, a hypergraph is constructed based on the high-confidence superpoint-level seeds which are converted from scene-level annotations. Secondly, the WHCN takes the hypergraph as input and learns to predict high-precision point-level pseudo labels by label propagation. Besides the backbone network consisting of spectral hypergraph convolution blocks, a hyperedge attention module is learned to adjust the weights of hyperedges in the WHCN. Finally, a segmentation network is trained by these pseudo point cloud labels. We comprehensively conduct experiments on the ScanNet and S3DIS segmentation datasets. Experimental results demonstrate that the proposed WHCN is effective to predict the point labels with scene annotations, and yields state-of-the-art results in the community. The source code is available at http://zhiyongsu.github.io/Project/WHCN.html.