arXiv reaDer
DANCE:DAta-効率的なセグメンテーションモデルのトレーニングと推論のためのネットワークの共同最適化
DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference
シーンを理解するためのセマンティックセグメンテーションは、今日広く要求されており、アルゴリズムの効率、特にリソースが限られたプラットフォームでのアプリケーションに重大な課題をもたらしています。現在のセグメンテーションモデルは、大規模な高解像度シーン画像(「データレベル」)でトレーニングおよび評価されており、必要なマルチスケール集約(「ネットワークレベル」)から生じるコストのかかる計算に悩まされています。両方の折り畳みにおいて、トレーニングと推論における計算とエネルギーのコストは、しばしば望まれる大きな入力解像度とセグメンテーションモデルの重い計算負荷のために注目に値します。この目的のために、効率的なセグメンテーションモデルのトレーニングと推論のための一般的な自動DAtaネットワーク協調最適化であるDANCEを提案します。 DANCEは、軽量ネットワーク設計のみに焦点を当てた既存の効率的なセグメンテーションアプローチとは異なり、入力データ操作とネットワークアーキテクチャスリミングの両方を介した自動化された同時データネットワーク共同最適化としての地位を確立しています。具体的には、DANCEは、入力画像を適応的にダウンサンプリング/ドロップし、画像の空間的な複雑さによって導かれるトレーニング損失への対応する寄与を制御する自動データスリミングを統合します。このようなダウンサンプリング操作は、入力サイズに直接関連するコストを削減することに加えて、入力オブジェクトとコンテキストスケールのダイナミックレンジを縮小するため、ダウンサンプリングされたデータに一致するようにネットワークを適応的にスリム化する動機付けにもなります。広範な実験とアブレーション研究(2つのトレーニング設定の下で3つの人気のあるセグメンテーションデータセットを持つ4つのSOTAセグメンテーションモデルで)は、DANCEが効率的なセグメンテーション(トレーニングコストの削減、推論のコストの削減、より良い平均交差オーバーユニオン(mIoU))。
Semantic segmentation for scene understanding is nowadays widely demanded, raising significant challenges for the algorithm efficiency, especially its applications on resource-limited platforms. Current segmentation models are trained and evaluated on massive high-resolution scene images ("data level") and suffer from the expensive computation arising from the required multi-scale aggregation("network level"). In both folds, the computational and energy costs in training and inference are notable due to the often desired large input resolutions and heavy computational burden of segmentation models. To this end, we propose DANCE, general automated DAta-Network Co-optimization for Efficient segmentation model training and inference. Distinct from existing efficient segmentation approaches that focus merely on light-weight network design, DANCE distinguishes itself as an automated simultaneous data-network co-optimization via both input data manipulation and network architecture slimming. Specifically, DANCE integrates automated data slimming which adaptively downsamples/drops input images and controls their corresponding contribution to the training loss guided by the images' spatial complexity. Such a downsampling operation, in addition to slimming down the cost associated with the input size directly, also shrinks the dynamic range of input object and context scales, therefore motivating us to also adaptively slim the network to match the downsampled data. Extensive experiments and ablating studies (on four SOTA segmentation models with three popular segmentation datasets under two training settings) demonstrate that DANCE can achieve "all-win" towards efficient segmentation(reduced training cost, less expensive inference, and better mean Intersection-over-Union (mIoU)).
updated: Fri Jul 16 2021 04:58:58 GMT+0000 (UTC)
published: Fri Jul 16 2021 04:58:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト