arXiv reaDer
超軽量セマンティック セグメンテーションのための因数分解ピラミッド学習による効率的なコンテキスト統合
Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation
セマンティック セグメンテーションは、入力画像の各ピクセルを分類するピクセル レベルの予測タスクです。畳み込みニューラル ネットワーク (CNN) などのディープ ラーニング モデルは、この分野で優れたパフォーマンスを達成することに非常に成功しています。ただし、自動運転などのモバイル アプリケーションでは、受信した画像ストリームをリアルタイムで処理する必要があります。したがって、精度の向上とともに効率的なアーキテクチャを実現することが最も重要です。 CNN の精度とモデル サイズは本質的に議論の余地があるため、課題は精度とモデル サイズの間で適切なトレードオフを達成することです。これに対処するために、効率的な方法で豊富なコンテキスト情報を集約するための新しい因子分解ピラミッド学習 (FPL) モジュールを提案します。一方では、マルチスケールのコンテキスト集約につながる複数の拡張率を持つ一連の畳み込みフィルターを使用します。より良い精度を達成するために重要です。一方、パラメーターは、採用されたフィルターを慎重に因数分解することによって削減されます。軽量モデルを実現するために重要です。さらに、空間ピラミッドを 2 つの段階に分解することで、モジュール内での単純かつ効率的な機能の融合を可能にし、悪名高いチェッカーボード効果を解決します。また、専用の特徴画像強化 (FIR) ユニットを設計して、浅い特徴と深い特徴を入力画像のダウンサンプリングされたバージョンと融合操作を実行します。これにより、モデル パラメーターを増やすことなく精度が向上します。 FPL モジュールと FIR ユニットに基づいて、最先端の精度と効率のトレードオフを実現する FPLNet と呼ばれる超軽量リアルタイム ネットワークを提案します。より具体的には、50 万未満のパラメーターのみで、提案されたネットワークは、Cityscapes の検証とテスト セットでそれぞれ 66.93% と 66.28% の mIoU を達成します。さらに、FPLNet の処理速度は 95.5 フレーム/秒 (FPS) です。
Semantic segmentation is a pixel-level prediction task to classify each pixel of the input image. Deep learning models, such as convolutional neural networks (CNNs), have been extremely successful in achieving excellent performances in this domain. However, mobile application, such as autonomous driving, demand real-time processing of incoming stream of images. Hence, achieving efficient architectures along with enhanced accuracy is of paramount importance. Since, accuracy and model size of CNNs are intrinsically contentious in nature, the challenge is to achieve a decent trade-off between accuracy and model size. To address this, we propose a novel Factorized Pyramidal Learning (FPL) module to aggregate rich contextual information in an efficient manner. On one hand, it uses a bank of convolutional filters with multiple dilation rates which leads to multi-scale context aggregation; crucial in achieving better accuracy. On the other hand, parameters are reduced by a careful factorization of the employed filters; crucial in achieving lightweight models. Moreover, we decompose the spatial pyramid into two stages which enables a simple and efficient feature fusion within the module to solve the notorious checkerboard effect. We also design a dedicated Feature-Image Reinforcement (FIR) unit to carry out the fusion operation of shallow and deep features with the downsampled versions of the input image. This gives an accuracy enhancement without increasing model parameters. Based on the FPL module and FIR unit, we propose an ultra-lightweight real-time network, called FPLNet, which achieves state-of-the-art accuracy-efficiency trade-off. More specifically, with only less than 0.5 million parameters, the proposed network achieves 66.93% and 66.28% mIoU on Cityscapes validation and test set, respectively. Moreover, FPLNet has a processing speed of 95.5 frames per second (FPS).
updated: Thu Feb 23 2023 05:34:51 GMT+0000 (UTC)
published: Thu Feb 23 2023 05:34:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト