マルチ出口のセマンティック セグメンテーション ネットワーク
Multi-Exit Semantic Segmentation Networks
セマンティック セグメンテーションは、自動運転車やロボット ナビゲーションから拡張現実やテレビ会議に至るまで、多くのビジョン システムのバックボーンとして発生します。限られたリソース エンベロープ内で厳しいレイテンシー制約の下で頻繁に動作する場合、効率的な実行のための最適化が重要になります。この目的のために、最先端のセグメンテーション モデルを MESS ネットワークに変換するためのフレームワークを提案します。より簡単なサンプルでの推論中の計算を節約するために、深さに沿ってパラメータ化された早期終了を採用する特別に訓練された CNN。このようなネットワークを単純に設計してトレーニングすると、パフォーマンスが低下する可能性があります。したがって、ネットワークの早い段階で意味的に重要な機能をプッシュする 2 段階のトレーニング プロセスを提案します。デバイスの機能とアプリケーション固有の要件に適応するために、接続されたセグメンテーション ヘッドの数、配置、アーキテクチャを出口ポリシーと共に最適化します。速度を最適化することで、MESS ネットワークは、精度を低下させることなく、最新の方法に比べて最大 2.83 倍のレイテンシを達成できます。したがって、精度を最適化すると、同じ計算バジェットで最大 5.33 pp の改善が達成されます。
Semantic segmentation arises as the backbone of many vision systems, spanning from self-driving cars and robot navigation to augmented reality and teleconferencing. Frequently operating under stringent latency constraints within a limited resource envelope, optimising for efficient execution becomes important. To this end, we propose a framework for converting state-of-the-art segmentation models to MESS networks; specially trained CNNs that employ parametrised early exits along their depth to save computation during inference on easier samples. Designing and training such networks naively can hurt performance. Thus, we propose a two-staged training process that pushes semantically important features early in the network. We co-optimise the number, placement and architecture of the attached segmentation heads, along with the exit policy, to adapt to the device capabilities and application-specific requirements. Optimising for speed, MESS networks can achieve latency gains of up to 2.83x over state-of-the-art methods with no accuracy degradation. Accordingly, optimising for accuracy, we achieve an improvement of up to 5.33 pp, under the same computational budget.
updated: Mon Jun 07 2021 11:37:03 GMT+0000 (UTC)
published: Mon Jun 07 2021 11:37:03 GMT+0000 (UTC)
