セマンティックシーンの理解は、自動運転車と移動ロボットにとって不可欠なタスクです。私たちの作業では、単一のRGB画像から前景オブジェクトが削除され、背景クラスで意味的にペイントされたセマンティックセグメンテーションマップを推定することを目指しています。このセマンティックフォアグラウンドインペインティングタスクは、インペインティング(MPI)モジュールとしての新しい最大プーリングを含む単一ステージの畳み込みニューラルネットワーク(CNN)によって実行されます。これは、弱い監視でトレーニングされます。修復される前景領域。私たちのアプローチは、以前の2段階の最先端の方法よりも本質的に効率的であり、Cityscapesの修復された前景領域で3%IoUのマージンでそれよりも優れています。見えないKITTIデータセットでテストすると、パフォーマンスマージンは6%IoUに増加します。テスト用のコードと手動で注釈付けされたデータセットは、https://github.com/Chenyang-Lu/semantic-foreground-inpaintingの研究コミュニティと共有されています。
Semantic scene understanding is an essential task for self-driving vehicles and mobile robots. In our work, we aim to estimate a semantic segmentation map, in which the foreground objects are removed and semantically inpainted with background classes, from a single RGB image. This semantic foreground inpainting task is performed by a single-stage convolutional neural network (CNN) that contains our novel max-pooling as inpainting (MPI) module, which is trained with weak supervision, i.e., it does not require manual background annotations for the foreground regions to be inpainted. Our approach is inherently more efficient than the previous two-stage state-of-the-art method, and outperforms it by a margin of 3% IoU for the inpainted foreground regions on Cityscapes. The performance margin increases to 6% IoU, when tested on the unseen KITTI dataset. The code and the manually annotated datasets for testing are shared with the research community at https://github.com/Chenyang-Lu/semantic-foreground-inpainting.