arXiv reaDer
単一段階の弱教師ありセマンティックセグメンテーションに向けて
Towards Single Stage Weakly Supervised Semantic Segmentation
セマンティックセグメンテーションラベルを取得するコストのかかるプロセスにより、画像レベル、ポイント、またはボックスラベルのみを使用して、弱教師ありセグメンテーションセグメンテーション(WSSS)メソッドに向けて研究が推進されています。密なシーン表現がないため、シーンに関する追加のセマンティック情報を取得するために複雑さを増す方法が必要です。これは、多くの場合、トレーニングと改良の複数の段階を通じて行われます。現在の最先端(SOTA)モデルは、画像レベルのラベルを活用して、監視用の疑似マスクを作成するためにしきい値処理される前に、複数の改良段階を経るクラスアクティベーションマップ(CAM)を生成します。多段階アプローチは計算コストが高く、CAM生成のための画像レベルのラベルへの依存はより複雑なシーンへの一般化可能性を欠いています。逆に、私たちの方法は、任意のデータセットに一般化できる単一段階のアプローチを提供します。これは、事前にトレーニングされたバックボーン、分類、または個別の改良タスクに依存することなく、ゼロからトレーニングできます。ポイントアノテーションを利用して、洗練されたフィルタリングされた機能を通じて、信頼性の高いオンザフライの疑似マスクを生成します。私たちの方法では、画像レベルの注釈よりもわずかに高価なポイント注釈が必要ですが、ベンチマークデータセット(PascalVOC 2012)でSOTAのパフォーマンスを示し、最近の実際のデータセット(CRAID、 CityPersons、IAD)。
The costly process of obtaining semantic segmentation labels has driven research towards weakly supervised semantic segmentation (WSSS) methods, using only image-level, point, or box labels. The lack of dense scene representation requires methods to increase complexity to obtain additional semantic information about the scene, often done through multiple stages of training and refinement. Current state-of-the-art (SOTA) models leverage image-level labels to produce class activation maps (CAMs) which go through multiple stages of refinement before they are thresholded to make pseudo-masks for supervision. The multi-stage approach is computationally expensive, and dependency on image-level labels for CAMs generation lacks generalizability to more complex scenes. In contrary, our method offers a single-stage approach generalizable to arbitrary dataset, that is trainable from scratch, without any dependency on pre-trained backbones, classification, or separate refinement tasks. We utilize point annotations to generate reliable, on-the-fly pseudo-masks through refined and filtered features. While our method requires point annotations that are only slightly more expensive than image-level annotations, we are to demonstrate SOTA performance on benchmark datasets (PascalVOC 2012), as well as significantly outperform other SOTA WSSS methods on recent real-world datasets (CRAID, CityPersons, IAD).
updated: Fri Jun 18 2021 18:34:50 GMT+0000 (UTC)
published: Fri Jun 18 2021 18:34:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト