自律システムが適切に動作するには周囲の世界を見て理解する必要があるため、現実世界の環境で動作するロボットにとって認識は非常に重要です。パノプティック セグメンテーションは、インスタンス ID とともにピクセル単位のセマンティック ラベルを計算することにより、シーンの解釈を提供します。この論文では、屋内シーンの RGB-D データを使用したパノプティック セグメンテーションについて説明します。我々は、2 つのエンコーダを通じて RGB と深度を別々に処理する新しいエンコーダ - デコーダ ニューラル ネットワークを提案します。個々のエンコーダの機能は、相補的な深度情報を使用して RGB 機能が強化されるように、異なる解像度で徐々にマージされます。私たちは、ResidualExcite と呼ばれる新しいマージ アプローチを提案します。これは、特徴マップの各エントリをその重要性に応じて再重み付けします。ダブルエンコーダーアーキテクチャにより、キューの欠落に対して堅牢です。特に、同じモデルは、特殊なモデルをトレーニングする必要なく、RGB-D、RGB のみ、および深度のみの入力データでトレーニングおよび推論できます。公開されているデータセットで私たちの方法を評価し、私たちのアプローチがパノプティックセグメンテーションの他の一般的なアプローチと比較して優れた結果を達成することを示します。
Perception is crucial for robots that act in real-world environments, as autonomous systems need to see and understand the world around them to act properly. Panoptic segmentation provides an interpretation of the scene by computing a pixelwise semantic label together with instance IDs. In this paper, we address panoptic segmentation using RGB-D data of indoor scenes. We propose a novel encoder-decoder neural network that processes RGB and depth separately through two encoders. The features of the individual encoders are progressively merged at different resolutions, such that the RGB features are enhanced using complementary depth information. We propose a novel merging approach called ResidualExcite, which reweighs each entry of the feature map according to its importance. With our double-encoder architecture, we are robust to missing cues. In particular, the same model can train and infer on RGB-D, RGB-only, and depth-only input data, without the need to train specialized models. We evaluate our method on publicly available datasets and show that our approach achieves superior results compared to other common approaches for panoptic segmentation.