arXiv reaDer
FBSNet:リアルタイムセマンティックセグメンテーションのための高速バイラテラル対称ネットワーク
FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic Segmentation
入力画像のピクセルレベルの分類タスクとして視覚的に理解できるリアルタイムのセマンティックセグメンテーションは、現在、特に自動運転やドローンナビゲーションの急速に発展している分野で幅広いアプリケーションの見通しがあります。しかし、冗長なパラメータを伴う計算の大きな負担は、依然としてその技術開発の障害となっています。この論文では、上記の課題を軽減するために、高速二国間対称ネットワーク(FBSNet)を提案します。具体的には、FBSNetは、セマンティック情報ブランチと空間詳細ブランチの2つのブランチを持つ対称エンコーダ-デコーダ構造を採用しています。セマンティック情報ブランチは、入力画像のコンテキスト情報を取得し、その間に十分な受容野を取得するための深いネットワークアーキテクチャを備えたメインブランチです。空間詳細ブランチは、詳細を保持するために各ピクセルのローカル依存関係を確立するために使用される浅くて単純なネットワークですが、これはデコードフェーズ中に元の解像度を復元するために不可欠です。一方、機能集約モジュール(FAM)は、2つのブランチの出力機能を効果的に組み合わせるように設計されています。 CityscapesとCamVidの実験結果は、提案されたFBSNetが精度と効率のバランスをうまくとることができることを示しています。具体的には、これら2つのテストデータセットでそれぞれ90fpsと120fpsの推論速度とともに70.9%と68.9%のmIoUを取得し、単一のRTX 2080TiGPUでわずか62万のパラメーターを使用します。
Real-time semantic segmentation, which can be visually understood as the pixel-level classification task on the input image, currently has broad application prospects, especially in the fast-developing fields of autonomous driving and drone navigation. However, the huge burden of calculation together with redundant parameters are still the obstacles to its technological development. In this paper, we propose a Fast Bilateral Symmetrical Network (FBSNet) to alleviate the above challenges. Specifically, FBSNet employs a symmetrical encoder-decoder structure with two branches, semantic information branch, and spatial detail branch. The semantic information branch is the main branch with deep network architecture to acquire the contextual information of the input image and meanwhile acquire sufficient receptive field. While spatial detail branch is a shallow and simple network used to establish local dependencies of each pixel for preserving details, which is essential for restoring the original resolution during the decoding phase. Meanwhile, a feature aggregation module (FAM) is designed to effectively combine the output features of the two branches. The experimental results of Cityscapes and CamVid show that the proposed FBSNet can strike a good balance between accuracy and efficiency. Specifically, it obtains 70.9% and 68.9% mIoU along with the inference speed of 90 fps and 120 fps on these two test datasets, respectively, with only 0.62 million parameters on a single RTX 2080Ti GPU.
updated: Thu Sep 02 2021 04:16:39 GMT+0000 (UTC)
published: Thu Sep 02 2021 04:16:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト