統合されたパノプティック セグメンテーション手法は、いくつかのデータセットで最先端の結果を達成しています。高解像度のデータセットでこれらの結果を達成するために、これらの方法はクロップベースのトレーニングを適用します。この研究では、作物ベースのトレーニングは一般的に有利ですが、有害な副作用もあることがわかりました。具体的には、ユニファイド ネットワークが大きなオブジェクト インスタンスを区別する能力を制限し、複数のインスタンス間で混乱した予測を行う原因となります。これを解決するために、イントラバッチ監視 (IBS) を提案します。これは、同じバッチから複数の画像を使用して追加の監視を導入することで、インスタンスを識別するネットワークの能力を向上させます。 IBS を使用して、混乱の問題にうまく対処し、ユニファイド ネットワークのパフォーマンスを一貫して改善することを示します。高解像度の Cityscapes と Mapillary Vistas のデータセットでは、モノのクラスのパノプティック品質で最大 +2.5 の改善を達成し、ピクセル精度とピクセル精度の両方で最大 +5.8 のさらに大幅な向上を達成しました。混乱の問題を捉えるためのより良いメトリクス。
Unified panoptic segmentation methods are achieving state-of-the-art results on several datasets. To achieve these results on high-resolution datasets, these methods apply crop-based training. In this work, we find that, although crop-based training is advantageous in general, it also has a harmful side-effect. Specifically, it limits the ability of unified networks to discriminate between large object instances, causing them to make predictions that are confused between multiple instances. To solve this, we propose Intra-Batch Supervision (IBS), which improves a network's ability to discriminate between instances by introducing additional supervision using multiple images from the same batch. We show that, with our IBS, we successfully address the confusion problem and consistently improve the performance of unified networks. For the high-resolution Cityscapes and Mapillary Vistas datasets, we achieve improvements of up to +2.5 on the Panoptic Quality for thing classes, and even more considerable gains of up to +5.8 on both the pixel accuracy and pixel precision, which we identify as better metrics to capture the confusion problem.