Distilling Pixel-Wise Feature Similarities for Semantic Segmentation
 ニューラルネットワーク圧縮技術の中で、知識の蒸留は、より単純な学生ネットワークがより大きな教師ネットワークの出力を模倣することを強制する効果的なものです。ただし、このようなモデルの蒸留方法のほとんどは、画像レベルの分類タスクに焦点を当てています。これらのメソッドをセマンティックセグメンテーションのタスクに直接適用しても、わずかな改善しか得られません。この論文では、セマンティックセグメンテーションの困難な蒸留問題に取り組むために、ピクセル単位の特徴の類似性(PFS)と呼ばれるシンプルでありながら効果的な知識表現を提案します。開発されたPFSは、高レベルの畳み込み機能の各ピクセル位置の空間構造情報をエンコードします。これにより、蒸留プロセスを簡単にガイドできます。さらに、ピクセル単位の知識ギャップに応じて、学生ネットワークが教師ネットワークの出力を選択的に模倣できるようにするために、新規の重み付きピクセルレベルのソフト予測模倣アプローチが提案されています。 Pascal VOC 2012、ADE20K、およびPascal Contextの挑戦的なデータセットで広範な実験が行われています。私たちのアプローチは、いくつかの強力なベースラインと比較して大幅なパフォーマンスの改善をもたらし、新しい最先端の結果を達成します。
Among the neural network compression techniques, knowledge distillation is an effective one which forces a simpler student network to mimic the output of a larger teacher network. However, most of such model distillation methods focus on the image-level classification task. Directly adapting these methods to the task of semantic segmentation only brings marginal improvements. In this paper, we propose a simple, yet effective knowledge representation referred to as pixel-wise feature similarities (PFS) to tackle the challenging distillation problem of semantic segmentation. The developed PFS encodes spatial structural information for each pixel location of the high-level convolutional features, which helps guide the distillation process in an easier way. Furthermore, a novel weighted pixel-level soft prediction imitation approach is proposed to enable the student network to selectively mimic the teacher network's output, according to their pixel-wise knowledge-gaps. Extensive experiments are conducted on the challenging datasets of Pascal VOC 2012, ADE20K and Pascal Context. Our approach brings significant performance improvements compared to several strong baselines and achieves new state-of-the-art results.
updated: Thu Oct 31 2019 02:59:51 GMT+0000 (UTC)
published: Thu Oct 31 2019 02:59:51 GMT+0000 (UTC)
