arXiv reaDer
Plugging Self-Supervised Monocular Depth into Unsupervised Domain Adaptation for Semantic Segmentation
最近のセマンティックセグメンテーション手法は目覚ましい進歩を遂げましたが、それでも大量の注釈付きトレーニングデータに依存しており、自動運転シナリオでは収集できないことがよくあります。以前の作品は通常、教師なしドメイン適応(UDA)でこの問題に取り組んでいます。これは、合成画像でネットワークをトレーニングし、2つのドメイン間の不一致を最小限に抑えながらモデルを実際の画像に適用することを伴います。ただし、これらの手法では、他のタスクから取得される可能性のある追加情報は考慮されていません。別の方法として、セマンティックセグメンテーションのUDAを改善するために、自己監視単眼深度推定を活用することを提案します。一方では、深さを展開して、既存のUDAメソッドに補完的な幾何学的な手がかりを注入できるプラグインコンポーネントを実現します。さらに、深さに依存して、最終モデルをセルフトレーニングするための多種多様なサンプルのセットを生成します。私たちの提案全体は、GTA5-> CSベンチマークベンチマークで最先端のパフォーマンス(58.8 mIoU)を達成することを可能にします。コードはで入手できます。
Although recent semantic segmentation methods have made remarkable progress, they still rely on large amounts of annotated training data, which are often infeasible to collect in the autonomous driving scenario. Previous works usually tackle this issue with Unsupervised Domain Adaptation (UDA), which entails training a network on synthetic images and applying the model to real ones while minimizing the discrepancy between the two domains. Yet, these techniques do not consider additional information that may be obtained from other tasks. Differently, we propose to exploit self-supervised monocular depth estimation to improve UDA for semantic segmentation. On one hand, we deploy depth to realize a plug-in component which can inject complementary geometric cues into any existing UDA method. We further rely on depth to generate a large and varied set of samples to Self-Train the final model. Our whole proposal allows for achieving state-of-the-art performance (58.8 mIoU) in the GTA5->CS benchmark benchmark. Code is available at
updated: Wed Oct 13 2021 12:48:51 GMT+0000 (UTC)
published: Wed Oct 13 2021 12:48:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト