Global Aggregation then Local Distribution in Fully Convolutional Networks
  グローバルアグリゲーションモジュールを介した完全畳み込みネットワーク(FCN)での長距離依存関係のモデリングは、セマンティックセグメンテーションやオブジェクト検出などの複雑なシーン理解タスクに不可欠であることが広く証明されています。ただし、グローバルな集約は大きなパターンの特徴によって支配されることが多く、小さなパターン(境界や小さなオブジェクトなど)を含む領域を滑らかにしがちです。この問題を解決するために、最初に\ emph {Global Aggregationを使用し、次に\ emph {GALDと呼ばれるLocal Distributionを使用することを提案します。各位置での各パターンのサイズは、チャネルごとのマスクマップとしてネットワークで推定されます。 GALDはエンドツーエンドでトレーニング可能であり、さまざまなビジョンタスク用のさまざまなグローバル集約モジュールを使用して既存のFCNに簡単にプラグインでき、常に最新のオブジェクト検出およびインスタンスセグメンテーションアプローチのパフォーマンスを向上させます。特に、セマンティックセグメンテーションで使用されるGALDは、mIoU 83.3 \%のCityscapesテストセットで新しい最先端のパフォーマンスを実現します。コードは次の場所にあります:\ url {
It has been widely proven that modelling long-range dependencies in fully convolutional networks (FCNs) via global aggregation modules is critical for complex scene understanding tasks such as semantic segmentation and object detection. However, global aggregation is often dominated by features of large patterns and tends to oversmooth regions that contain small patterns (e.g., boundaries and small objects). To resolve this problem, we propose to first use \emph{Global Aggregation and then \emph{Local Distribution, which is called GALD, where long-range dependencies are more confidently used inside large pattern regions and vice versa. The size of each pattern at each position is estimated in the network as a per-channel mask map. GALD is end-to-end trainable and can be easily plugged into existing FCNs with various global aggregation modules for a wide range of vision tasks, and consistently improves the performance of state-of-the-art object detection and instance segmentation approaches. In particular, GALD used in semantic segmentation achieves new state-of-the-art performance on Cityscapes test set with mIoU 83.3\%. Code is available at: \url{
