Context-Integrated and Feature-Refined Network for Lightweight Object Parsing
 軽量オブジェクト解析のセマンティックセグメンテーションは、精度と効率(実行速度、メモリフットプリント、計算の複雑さなど)をすべて考慮する必要があるため、非常に難しいタスクです。ただし、以前のほとんどの作品は、精度または速度のいずれか一方的な視点に注意を払いすぎ、他の作品を無視します。これは、インテリジェントデバイスの実際の要求に大きな制限をもたらします。このジレンマに取り組むために、Context-Integrated and Feature-Refined Network(CIFReNet)という名前の新しい軽量アーキテクチャを提案します。 CIFReNetのコアコンポーネントは、ロングスキップリファインメントモジュール(LRM)とマルチスケールコンテキスト統合モジュール(MCIM)です。 LRMは、低レベル段階と高レベル段階との間の空間情報の伝播を容易にするように設計されています。さらに、チャネルアテンションメカニズムがロングスキップ学習のプロセスに導入され、低レベルの機能の改良の品質が向上します。一方、MCIMは、複数のコンテキスト情報をエンコードして視野を拡大するために提示される、画像レベルの機能を備えた3つのカスケードされた高密度セマンティックピラミッド(DSP)ブロックで構成されます。具体的には、提案されたDSPブロックは、密集した特徴のサンプリング戦略を活用して、計算コストを大幅に増やすことなく情報表現を強化します。 Cityscapes、CamVid、Helenなど、オブジェクト解析用の3つのベンチマークデータセットで包括的な実験が実施されています。示されているように、提案された方法は、他の最先端の方法と比較して、精度と効率の間のより良いトレードオフに達します。
Semantic segmentation for lightweight object parsing is a very challenging task, because both accuracy and efficiency (e.g., execution speed, memory footprint or computational complexity) should all be taken into account. However, most previous works pay too much attention to one-sided perspective, either accuracy or speed, and ignore others, which poses a great limitation to actual demands of intelligent devices. To tackle this dilemma, we propose a novel lightweight architecture named Context-Integrated and Feature-Refined Network (CIFReNet). The core components of CIFReNet are the Long-skip Refinement Module (LRM) and the Multi-scale Context Integration Module (MCIM). The LRM is designed to ease the propagation of spatial information between low-level and high-level stages. Furthermore, channel attention mechanism is introduced into the process of long-skip learning to boost the quality of low-level feature refinement. Meanwhile, the MCIM consists of three cascaded Dense Semantic Pyramid (DSP) blocks with image-level features, which is presented to encode multiple context information and enlarge the field of view. Specifically, the proposed DSP block exploits a dense feature sampling strategy to enhance the information representations without significantly increasing the computation cost. Comprehensive experiments are conducted on three benchmark datasets for object parsing including Cityscapes, CamVid, and Helen. As indicated, the proposed method reaches a better trade-off between accuracy and efficiency compared with the other state-of-the-art methods.
updated: Tue Feb 25 2020 04:12:16 GMT+0000 (UTC)
published: Fri Jul 26 2019 10:50:30 GMT+0000 (UTC)
