arXiv reaDer
リアルタイムのセマンティックセグメンテーションのための機能ピラミッドエンコーディングネットワーク
Feature Pyramid Encoding Network for Real-time Semantic Segmentation
  現在のディープラーニングメソッドはセマンティックセグメンテーションで印象的な結果を達成していますが、計算コストが高く、膨大な数のパラメーターがあります。リアルタイムアプリケーションの場合、推論速度とメモリ使用量は2つの重要な要素です。この課題に対処するために、精度と速度の適切なトレードオフを実現する軽量機能ピラミッドエンコーディングネットワーク(FPENet)を提案します。具体的には、機能ピラミッドエンコーディングブロックを使用して、エンコーダーのすべての段階で深さ方向に拡張された畳み込みでマルチスケールコンテキスト機能をエンコードします。相互埋め込みアップサンプルモジュールがデコーダに導入され、高レベルのセマンティック機能と低レベルの空間詳細を効率的に集約します。提案されたネットワークは、CityscapesおよびCamVidベンチマークデータセットのパラメータが少なく、推論速度が向上しているため、既存のリアルタイムメソッドよりも優れています。具体的には、FPPENetは、NVIDIA TITAN V GPUでわずか0.4Mのパラメーターと102 FPSの速度で、Cityscapesテストセットで68.0 \%平均IoUを達成します。
Although current deep learning methods have achieved impressive results for semantic segmentation, they incur high computational costs and have a huge number of parameters. For real-time applications, inference speed and memory usage are two important factors. To address the challenge, we propose a lightweight feature pyramid encoding network (FPENet) to make a good trade-off between accuracy and speed. Specifically, we use a feature pyramid encoding block to encode multi-scale contextual features with depthwise dilated convolutions in all stages of the encoder. A mutual embedding upsample module is introduced in the decoder to aggregate the high-level semantic features and low-level spatial details efficiently. The proposed network outperforms existing real-time methods with fewer parameters and improved inference speed on the Cityscapes and CamVid benchmark datasets. Specifically, FPENet achieves 68.0\% mean IoU on the Cityscapes test set with only 0.4M parameters and 102 FPS speed on an NVIDIA TITAN V GPU.
updated: Wed Sep 18 2019 17:40:06 GMT+0000 (UTC)
published: Wed Sep 18 2019 17:40:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト