弱いラベルの付いた(たとえば、画像タグのみ)データからセマンティックセグメンテーションを学習することは、まばらなセマンティックタグから密なオブジェクト領域を推測するのが難しいため、困難です。広く研究されているにもかかわらず、現在のほとんどの取り組みは、個々の画像または画像ペアによって運ばれる限られたセマンティックアノテーションから直接学習し、統合されたローカリゼーションマップを取得するのに苦労しています。私たちの仕事は、ネットワークの学習と推論のための豊富な弱くラベル付けされたトレーニングデータ間で相乗的に豊富なセマンティックコンテキストを探索することにより、新しい観点からこれを軽減します。特に、地域の意味的対比と集約(RCA)を提案します。 RCAには、トレーニングデータに表示される大規模で多様なオブジェクトパターンを格納するための地域メモリバンクが装備されています。これは、データセットレベルのセマンティック構造の探索を強力にサポートします。特に、i)大規模なカテゴリオブジェクト領域を対比することでネットワーク学習を促進し、より全体的なオブジェクトパターンの理解につながるセマンティックコントラスト、およびii)メモリ内の多様な関係コンテキストを収集してセマンティック表現を充実させるセマンティック集約を提案します。このようにして、RCAはきめ細かい意味理解の強力な機能を獲得し、最終的に2つの人気のあるベンチマークであるPASCALVOC2012とCOCO2014で新しい最先端の結果を確立します。
Learning semantic segmentation from weakly-labeled (e.g., image tags only) data is challenging since it is hard to infer dense object regions from sparse semantic tags. Despite being broadly studied, most current efforts directly learn from limited semantic annotations carried by individual image or image pairs, and struggle to obtain integral localization maps. Our work alleviates this from a novel perspective, by exploring rich semantic contexts synergistically among abundant weakly-labeled training data for network learning and inference. In particular, we propose regional semantic contrast and aggregation (RCA) . RCA is equipped with a regional memory bank to store massive, diverse object patterns appearing in training data, which acts as strong support for exploration of dataset-level semantic structure. Particularly, we propose i) semantic contrast to drive network learning by contrasting massive categorical object regions, leading to a more holistic object pattern understanding, and ii) semantic aggregation to gather diverse relational contexts in the memory to enrich semantic representations. In this manner, RCA earns a strong capability of fine-grained semantic understanding, and eventually establishes new state-of-the-art results on two popular benchmarks, i.e., PASCAL VOC 2012 and COCO 2014.