arXiv reaDer
セマンティックセグメンテーションのためのマルチスケール機能融合の再考
Revisiting Multi-Scale Feature Fusion for Semantic Segmentation
正確なセマンティックセグメンテーションには、高価な操作(たとえば、激しい畳み込み)と組み合わせた高い内部解像度が必要であり、その結果、速度が遅くなり、メモリ使用量が大きくなると一般に考えられています。この論文では、この信念に疑問を投げかけ、高い内部解像度も激しい畳み込みも必要ないことを示しています。私たちの直感では、セグメンテーションはピクセルごとの高密度の予測タスクですが、各ピクセルのセマンティクスは、多くの場合、近くの隣接ピクセルと遠くのコンテキストの両方に依存します。したがって、より強力なマルチスケール機能融合ネットワークが重要な役割を果たします。この直感に従って、従来のマルチスケールフィーチャスペース(通常はP5で上限が設定されます)を再検討し、最小のフィーチャが入力サイズの1/512しかないため、非常に大きいP9までのはるかに豊富なスペースに拡張します。受容野。このような豊富な機能スペースを処理するために、最近のBiFPNを活用してマルチスケール機能を融合しています。これらの洞察に基づいて、ESegという名前の単純化されたセグメンテーションモデルを開発します。これは、高い内部解像度も高価な畳み込みもありません。おそらく驚くべきことに、私たちの単純な方法は、複数のデータセットにわたって従来技術よりも速い速度でより良い精度を達成することができます。リアルタイム設定では、ESeg-Lite-SはCityScapes[12]で189FPSで76.0%mIoUを達成し、FasterSeg [9](170 FPSで73.1%mIoU)を上回っています。 ESeg-Lite-Lは79FPSで動作し、80.1%mIoUを達成し、リアルタイムと高性能のセグメンテーションモデル間のギャップを大幅に埋めます。
It is commonly believed that high internal resolution combined with expensive operations (e.g. atrous convolutions) are necessary for accurate semantic segmentation, resulting in slow speed and large memory usage. In this paper, we question this belief and demonstrate that neither high internal resolution nor atrous convolutions are necessary. Our intuition is that although segmentation is a dense per-pixel prediction task, the semantics of each pixel often depend on both nearby neighbors and far-away context; therefore, a more powerful multi-scale feature fusion network plays a critical role. Following this intuition, we revisit the conventional multi-scale feature space (typically capped at P5) and extend it to a much richer space, up to P9, where the smallest features are only 1/512 of the input size and thus have very large receptive fields. To process such a rich feature space, we leverage the recent BiFPN to fuse the multi-scale features. Based on these insights, we develop a simplified segmentation model, named ESeg, which has neither high internal resolution nor expensive atrous convolutions. Perhaps surprisingly, our simple method can achieve better accuracy with faster speed than prior art across multiple datasets. In real-time settings, ESeg-Lite-S achieves 76.0% mIoU on CityScapes [12] at 189 FPS, outperforming FasterSeg [9] (73.1% mIoU at 170 FPS). Our ESeg-Lite-L runs at 79 FPS and achieves 80.1% mIoU, largely closing the gap between real-time and high-performance segmentation models.
updated: Tue Jun 14 2022 20:24:07 GMT+0000 (UTC)
published: Wed Mar 23 2022 19:14:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト