ピクセル単位の損失、たとえばクロスエントロピーまたはL2は、一般的な画像分類または回帰の空間的拡張として構造化予測タスクで広く使用されています。ただし、そのi.i.d.仮定は、自然画像に存在する構造的規則性を無視します。共起パターンが推奨される協調的な方法で、主に構造の事前決定を通じて構造的推論を組み込むためのさまざまな試みが行われました。一方、この問題に反対の角度からアプローチし、このような構造化された予測ネットワークを敵対プロセスで訓練するための新しいフレームワーク、Adversarial Structure Matching(ASM)を提案します。 、ASMの損失。構造アナライザーは、ASM損失を最大化するように、または共起するパターン間で繰り返し発生するマルチスケールのハードネガティブな構造的ミスを強調するようにトレーニングされます。それどころか、構造化された予測ネットワークはこれらの間違いを減らすように訓練されているため、きめの細かい構造を区別することができます。その結果、ASMを使用して構造化予測ネットワークをトレーニングすると、オブジェクト間のコンテキストの混乱が減少し、境界のローカリゼーションが改善されます。 ASMは、セマンティックセグメンテーション、単眼深度推定、表面法線予測の3つの異なる構造化予測タスクで、ピクセル単位のIID損失または構造的な事前GAN損失よりも優れていることを示しています。
Pixel-wise losses, e.g., cross-entropy or L2, have been widely used in structured prediction tasks as a spatial extension of generic image classification or regression. However, its i.i.d. assumption neglects the structural regularity present in natural images. Various attempts have been made to incorporate structural reasoning mostly through structure priors in a cooperative way where co-occurring patterns are encouraged. We, on the other hand, approach this problem from an opposing angle and propose a new framework, Adversarial Structure Matching (ASM), for training such structured prediction networks via an adversarial process, in which we train a structure analyzer that provides the supervisory signals, the ASM loss. The structure analyzer is trained to maximize the ASM loss, or to emphasize recurring multi-scale hard negative structural mistakes among co-occurring patterns. On the contrary, the structured prediction network is trained to reduce those mistakes and is thus enabled to distinguish fine-grained structures. As a result, training structured prediction networks using ASM reduces contextual confusion among objects and improves boundary localization. We demonstrate that our ASM outperforms pixel-wise IID loss or structural prior GAN loss on three different structured prediction tasks: semantic segmentation, monocular depth estimation, and surface normal prediction.