注釈の大幅な節約により、ポイント監視は、多数の 2D および 3D シーン理解の問題に対して効果的であることが証明されています。この成功は、主に構造化された出力スペースに起因します。すなわち、高い空間親和性を持つサンプルは、同じラベルを共有する傾向があります。この精神を共有し、ポイント監視によるアフォーダンス セグメンテーションを研究します。この設定では、未踏のデュアル アフィニティ、空間アフィニティ、およびラベル アフィニティが継承されます。ラベル アフィニティによって、アフォーダンス セグメンテーションをマルチラベル予測問題と呼びます。プレートは保持可能であり、収容可能でもあります。空間的親和性とは、同様の視覚的特徴を持つ近くのピクセルが同じポイント注釈を共有する必要があるという普遍的な優先順位を指します。ラベルの親和性に取り組むために、新しいドメインでラベルを効果的に高密度化することによってラベルの関係を強化する高密度予測ネットワークを考案します (つまり、ラベルの共起)。空間的な親和性に対処するために、グローバルなパッチの相互作用と正則化の損失のために Transformer バックボーンを利用します。実験では、困難なCAD120データセットで私たちの方法をベンチマークし、以前の方法よりも大幅なパフォーマンスの向上を示しました。
With significant annotation savings, point supervision has been proven effective for numerous 2D and 3D scene understanding problems. This success is primarily attributed to the structured output space; i.e., samples with high spatial affinity tend to share the same labels. Sharing this spirit, we study affordance segmentation with point supervision, wherein the setting inherits an unexplored dual affinity-spatial affinity and label affinity. By label affinity, we refer to affordance segmentation as a multi-label prediction problem: A plate can be both holdable and containable. By spatial affinity, we refer to a universal prior that nearby pixels with similar visual features should share the same point annotation. To tackle label affinity, we devise a dense prediction network that enhances label relations by effectively densifying labels in a new domain (i.e., label co-occurrence). To address spatial affinity, we exploit a Transformer backbone for global patch interaction and a regularization loss. In experiments, we benchmark our method on the challenging CAD120 dataset, showing significant performance gains over prior methods.