GFF: Gated Fully Fusion for Semantic Segmentation
 セマンティックセグメンテーションは、各ピクセルのカテゴリを密に予測することにより、シーンの包括的な理解を生成します。 Deep Convolutional Neural Networksの高レベルの機能は、セマンティックセグメンテーションタスクで既に有効性を実証していますが、高レベルの機能の粗い解像度は、詳細な情報が重要な小さい/薄いオブジェクトの結果が劣ることがよくあります。高レベルの機能で失われた詳細情報を補うために低レベルの機能をインポートすることは当然のことです。残念ながら、単純にマルチレベルの機能を組み合わせると、それらの間のセマンティックギャップが生じます。このペーパーでは、ゲートを完全に接続した方法で複数のレベルの機能を選択的に融合するための、Gated Fully Fusion(GFF)という名前の新しいアーキテクチャを提案します。具体的には、各レベルの機能は、より強力なセマンティクスを備えた上位レベルの機能とより詳細な下位レベルの機能によって強化され、ゲートは、融合中のノイズを大幅に削減する有用な情報の伝播を制御するために使用されますCityscapes、Pascal Context、COCO-stuff、ADE20Kなど、4つの困難なシーン解析データセットで最先端の結果を達成しています。
Semantic segmentation generates comprehensive understanding of scenes through densely predicting the category for each pixel. High-level features from Deep Convolutional Neural Networks already demonstrate their effectiveness in semantic segmentation tasks, however the coarse resolution of high-level features often leads to inferior results for small/thin objects where detailed information is important. It is natural to consider importing low level features to compensate for the lost detailed information in high-level features.Unfortunately, simply combining multi-level features suffers from the semantic gap among them. In this paper, we propose a new architecture, named Gated Fully Fusion (GFF), to selectively fuse features from multiple levels using gates in a fully connected way. Specifically, features at each level are enhanced by higher-level features with stronger semantics and lower-level features with more details, and gates are used to control the propagation of useful information which significantly reduces the noises during fusion. We achieve the state of the art results on four challenging scene parsing datasets including Cityscapes, Pascal Context, COCO-stuff and ADE20K.
updated: Mon Feb 24 2020 09:50:37 GMT+0000 (UTC)
published: Wed Apr 03 2019 07:00:16 GMT+0000 (UTC)
