DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic Segmentation
  ピクセルレベルの予測タスクとして、セマンティックセグメンテーションには、高いパフォーマンスを得るために膨大なパラメーターを伴う大きな計算コストが必要です。最近、自律システムとロボットの需要が増加しているため、精度と推論速度の間でトレードオフを行うことが重要です。この論文では、このジレンマに対処するための新しい深さ方向非対称ボトルネック(DAB)モジュールを提案します。 DABモジュールに基づいて、特にリアルタイムセマンティックセグメンテーション用の深さ方向非対称ボトルネックネットワーク(DABNet)を設計します。これは、十分な受容フィールドを作成し、コンテキスト情報を密に利用します。 CityscapesおよびCamVidデータセットの実験は、提案されたDABNetが速度と精度のバランスを達成することを示しています。具体的には、事前学習済みのモデルと後処理を行わずに、Cityscapesテストデータセットで70.1%の平均IoUを達成し、パラメーターはわずか760万個、GTX 1080Tiカード1枚で104 FPSです。
As a pixel-level prediction task, semantic segmentation needs large computational cost with enormous parameters to obtain high performance. Recently, due to the increasing demand for autonomous systems and robots, it is significant to make a tradeoff between accuracy and inference speed. In this paper, we propose a novel Depthwise Asymmetric Bottleneck (DAB) module to address this dilemma, which efficiently adopts depth-wise asymmetric convolution and dilated convolution to build a bottleneck structure. Based on the DAB module, we design a Depth-wise Asymmetric Bottleneck Network (DABNet) especially for real-time semantic segmentation, which creates sufficient receptive field and densely utilizes the contextual information. Experiments on Cityscapes and CamVid datasets demonstrate that the proposed DABNet achieves a balance between speed and precision. Specifically, without any pretrained model and postprocessing, it achieves 70.1% Mean IoU on the Cityscapes test dataset with only 0.76 million parameters and a speed of 104 FPS on a single GTX 1080Ti card.
updated: Tue Oct 01 2019 01:29:58 GMT+0000 (UTC)
published: Fri Jul 26 2019 01:50:31 GMT+0000 (UTC)
