セマンティックセグメンテーションは、コンピュータービジョンの基本的な問題です。これは実際にはピクセル単位の分類問題と見なされ、ほとんどのセグメンテーションモデルはピクセル単位の損失を最適化基準として使用します。ただし、ピクセル単位の損失では、画像内のピクセル間の依存関係は無視されます。ピクセル間の関係を活用するいくつかの方法、たとえば条件付きランダムフィールド(CRF)やピクセルアフィニティベースの方法が調査されています。それにもかかわらず、これらの方法は通常、追加のモデルブランチ、大量の余分なメモリ、またはより多くの推論時間を必要とします。このペーパーでは、ピクセル間の依存関係をより簡単かつ効率的にモデル化するために、領域相互情報(RMI)損失を開発します。ピクセルを独立したサンプルとして扱うピクセル単位の損失とは対照的に、RMIは1つのピクセルとその隣接ピクセルを使用してこのピクセルを表します。次に、画像内の各ピクセルについて、ピクセル間の関係をエンコードする多次元ポイントを取得し、画像をこれらの高次元ポイントの多次元分布にキャストします。したがって、予測とグラウンドトゥルースは、それらの多次元分布間の相互情報(MI)を最大化することにより、高次の一貫性を実現できます。さらに、MIの実際の値は計算が難しいため、MIの下限を導出し、下限を最大化してMIの実際の値を最大化します。 RMIはトレーニング段階でいくつかの追加の計算リソースのみを必要とし、テスト中のオーバーヘッドはありません。実験結果は、RMIがPASCAL VOC 2012およびCamVidデータセットのパフォーマンスを大幅かつ一貫して改善できることを示しています。コードはhttps://github.com/ZJULearning/RMIで入手できます。
Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores the dependencies between pixels in an image. Several ways to exploit the relationship between pixels have been investigated, \eg, conditional random fields (CRF) and pixel affinity based methods. Nevertheless, these methods usually require additional model branches, large extra memories, or more inference time. In this paper, we develop a region mutual information (RMI) loss to model the dependencies among pixels more simply and efficiently. In contrast to the pixel-wise loss which treats the pixels as independent samples, RMI uses one pixel and its neighbour pixels to represent this pixel. Then for each pixel in an image, we get a multi-dimensional point that encodes the relationship between pixels, and the image is cast into a multi-dimensional distribution of these high-dimensional points. The prediction and ground truth thus can achieve high order consistency through maximizing the mutual information (MI) between their multi-dimensional distributions. Moreover, as the actual value of the MI is hard to calculate, we derive a lower bound of the MI and maximize the lower bound to maximize the real value of the MI. RMI only requires a few extra computational resources in the training stage, and there is no overhead during testing. Experimental results demonstrate that RMI can achieve substantial and consistent improvements in performance on PASCAL VOC 2012 and CamVid datasets. The code is available at https://github.com/ZJULearning/RMI.