静的な環境理解と動的なオブジェクト識別の両方の統合タスクとしてのパノプティコンセグメンテーションは、最近、幅広い研究の関心を集め始めています。この論文では、GP-S3Netと呼ばれる新しい計算効率の高いLiDARベースのパノプティコンセグメンテーションフレームワークを提案します。 GP-S3Netは、インスタンス情報をキャプチャするための検出ネットワークが組み込まれている従来の2ステージパノラマシステムとは対照的に、オブジェクトを識別するためにオブジェクトの提案が不要な提案のないアプローチです。私たちの新しい設計は、オブジェクト(フォアグラウンド)を識別するためのグラフ畳み込みネットワークを構築することによってセマンティック結果を処理する新しいインスタンスレベルのネットワークで構成され、後でバックグラウンドクラスと融合されます。セマンティックセグメンテーションバックボーンからのフォアグラウンドオブジェクトのきめ細かいクラスターを介して、オーバーセグメンテーションの事前分布が生成され、その後3Dスパース畳み込みによって処理されて各クラスターが埋め込まれます。各クラスターはグラフ内でノードとして扱われ、対応する埋め込みがノード機能として使用されます。次に、GCNNは、各クラスターペア間にエッジが存在するかどうかを予測します。学習を監視するために、インスタンスラベルを利用して、構築された各グラフのグラウンドトゥルースエッジラベルを生成します。広範な実験により、GP-S3Netは、nuScenesやSemanticPOSSなどの利用可能なデータセット全体で、公開時に競争力のあるパブリックSemanticKITTIリーダーボードで第1位にランク付けされ、現在の最先端のアプローチを大幅に上回っています。
Panoptic segmentation as an integrated task of both static environmental understanding and dynamic object identification, has recently begun to receive broad research interest. In this paper, we propose a new computationally efficient LiDAR based panoptic segmentation framework, called GP-S3Net. GP-S3Net is a proposal-free approach in which no object proposals are needed to identify the objects in contrast to conventional two-stage panoptic systems, where a detection network is incorporated for capturing instance information. Our new design consists of a novel instance-level network to process the semantic results by constructing a graph convolutional network to identify objects (foreground), which later on are fused with the background classes. Through the fine-grained clusters of the foreground objects from the semantic segmentation backbone, over-segmentation priors are generated and subsequently processed by 3D sparse convolution to embed each cluster. Each cluster is treated as a node in the graph and its corresponding embedding is used as its node feature. Then a GCNN predicts whether edges exist between each cluster pair. We utilize the instance label to generate ground truth edge labels for each constructed graph in order to supervise the learning. Extensive experiments demonstrate that GP-S3Net outperforms the current state-of-the-art approaches, by a significant margin across available datasets such as, nuScenes and SemanticPOSS, ranking first on the competitive public SemanticKITTI leaderboard upon publication.