arXiv reaDer
密な予測のためのインタラクティブなバックプロパゲーションリファインメントの一般化
Generalizing Interactive Backpropagating Refinement for Dense Prediction
ディープニューラルネットワークが高密度予測タスクのコンピュータビジョンの分野で最先端のアプローチになるにつれて、視覚入力が与えられた場合のターゲット出力の自動推定のために多くの方法が開発されてきました。提案された自動手法の推定精度は向上し続けていますが、さらに修正するためにインタラクティブな改良が必要になることがよくあります。最近、インタラクティブセグメンテーションのタスクに対して機能バックプロパゲーションリファインメントスキーム(f-BRS)が提案されました。これにより、事前トレーニングされたネットワークに挿入された補助変数の小さなセットを効率的に最適化して、ユーザー入力との整合性を高めるオブジェクトセグメンテーションを生成できます。ただし、提案された補助変数にはチャネルごとのスケールとバイアスしか含まれておらず、最適化はグローバルな改良のみに制限されています。この作業では、広範囲の高密度予測タスクのバックプロパゲーションリファインメントを一般化するために、次のタスクのグローバルおよびローカライズされたリファインメントの両方を可能にするG-BRS(Generalized Backpropagating Refinement Scheme)レイヤーのセットを紹介します:インタラクティブセグメンテーション、セマンティックセグメンテーション、画像マット、単眼深度推定。 SBD、Cityscapes、Mapillary Vista、Composition-1k、NYU-Depth-V2での実験では、数回クリックするだけで、既存の事前トレーニング済みの最先端モデルのパフォーマンスを一般化して大幅に改善できることが示されています。
As deep neural networks become the state-of-the-art approach in the field of computer vision for dense prediction tasks, many methods have been developed for automatic estimation of the target outputs given the visual inputs. Although the estimation accuracy of the proposed automatic methods continues to improve, interactive refinement is oftentimes necessary for further correction. Recently, feature backpropagating refinement scheme (f-BRS) has been proposed for the task of interactive segmentation, which enables efficient optimization of a small set of auxiliary variables inserted into the pretrained network to produce object segmentation that better aligns with user inputs. However, the proposed auxiliary variables only contain channel-wise scale and bias, limiting the optimization to global refinement only. In this work, in order to generalize backpropagating refinement for a wide range of dense prediction tasks, we introduce a set of G-BRS (Generalized Backpropagating Refinement Scheme) layers that enable both global and localized refinement for the following tasks: interactive segmentation, semantic segmentation, image matting and monocular depth estimation. Experiments on SBD, Cityscapes, Mapillary Vista, Composition-1k and NYU-Depth-V2 show that our method can successfully generalize and significantly improve performance of existing pretrained state-of-the-art models with only a few clicks.
updated: Wed Dec 22 2021 11:07:46 GMT+0000 (UTC)
published: Tue Dec 21 2021 03:52:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト