セマンティックセグメンテーションは、コンピュータビジョンの基本ですが、重要なタスクです。これまでの多くの研究は、親和性パターンを利用してセグメンテーションネットワークを強化することに焦点を当てています。これらの研究のほとんどは、注意モデルや非ローカルモデルなど、ネットワークに埋め込まれたモジュールの一部である一種の特徴融合重みとしてアフィニティマトリックスを使用します。このホワイトペーパーでは、教師ありの方法でアフィニティを活用して、アフィニティマトリックスをラベルに関連付けます。具体的には、ラベルを利用して構造監視としてマルチスケールラベルアフィニティマトリックスを生成し、平方根カーネルを使用して出力レイヤー上の非ローカルアフィニティマトリックスを計算します。このような2つのアフィニティを使用して、アフィニティ回帰損失(AR損失)と呼ばれる新しい損失を定義します。これは、ペアワイズ類似性ペナルティを提供する補助損失になる可能性があります。私たちのモデルはトレーニングが簡単で、実行時の推論なしで計算負荷をほとんど追加しません。 NYUv2データセットとCityscapesデータセットに関する広範な実験は、提案された方法がセマンティックセグメンテーションネットワークを促進するのに十分であることを示しています。
Semantic segmentation is a basic but non-trivial task in computer vision. Many previous work focus on utilizing affinity patterns to enhance segmentation networks. Most of these studies use the affinity matrix as a kind of feature fusion weights, which is part of modules embedded in the network, such as attention models and non-local models. In this paper, we associate affinity matrix with labels, exploiting the affinity in a supervised way. Specifically, we utilize the label to generate a multi-scale label affinity matrix as a structural supervision, and we use a square root kernel to compute a non-local affinity matrix on output layers. With such two affinities, we define a novel loss called Affinity Regression loss (AR loss), which can be an auxiliary loss providing pair-wise similarity penalty. Our model is easy to train and adds little computational burden without run-time inference. Extensive experiments on NYUv2 dataset and Cityscapes dataset demonstrate that our proposed method is sufficient in promoting semantic segmentation networks.