arXiv reaDer
スタイルと歪みの両方の問題: パノラマ セマンティック セグメンテーションのためのデュアルパス教師なしドメイン適応
Both Style and Distortion Matter: Dual-Path Unsupervised Domain Adaptation for Panoramic Semantic Segmentation
シーンを理解する能力は、パノラマ画像のセマンティック セグメンテーションに関する活発な研究に火をつけました。ただし、正距円筒図法 (ERP) の歪みとピクセル単位の注釈の欠如により、パフォーマンスが妨げられます。このため、ERP 画像とピンホール画像を同等に扱い、教師なしドメイン適応 (UDA) を介してピンホールから ERP 画像に知識を移す研究もあります。ただし、次の原因によるドメイン ギャップを処理できません。1) カメラ センサーとキャプチャされたシーンの固有の違い。 2) 異なる画像形式 (ERP やピンホール画像など)。このホワイト ペーパーでは、ERP および接線投影 (TP) 画像を入力として使用する、斬新で柔軟なデュアル パス UDA フレームワーク DPPASS を提案します。ドメインのギャップを減らすために、クロスプロジェクションとイントラプロジェクションのトレーニングを提案します。クロス プロジェクション トレーニングには、接線ごとの特徴の対照トレーニングと予測一貫性トレーニングが含まれます。つまり、前者は、モデルの歪みを認識するために、正の例と同じ投影位置を持つ特徴を定式化し、後者はERPとTPの間のクロスモデル予測の一貫性を保証します。さらに、ピンホール画像の特徴とERPおよびTP画像の特徴との間の固有のギャップをそれぞれ減らすために、敵対的イントラプロジェクショントレーニングが提案されています。重要なのは、トレーニング後に TP パスを自由に削除できるため、追加の推論コストが発生しないことです。 2 つのベンチマークでの広範な実験では、DPPASS が最先端のアプローチよりも +1.06% の mIoU 増加を達成することが示されています。
The ability of scene understanding has sparked active research for panoramic image semantic segmentation. However, the performance is hampered by distortion of the equirectangular projection (ERP) and a lack of pixel-wise annotations. For this reason, some works treat the ERP and pinhole images equally and transfer knowledge from the pinhole to ERP images via unsupervised domain adaptation (UDA). However, they fail to handle the domain gaps caused by: 1) the inherent differences between camera sensors and captured scenes; 2) the distinct image formats (e.g., ERP and pinhole images). In this paper, we propose a novel yet flexible dual-path UDA framework, DPPASS, taking ERP and tangent projection (TP) images as inputs. To reduce the domain gaps, we propose cross-projection and intra-projection training. The cross-projection training includes tangent-wise feature contrastive training and prediction consistency training. That is, the former formulates the features with the same projection locations as positive examples and vice versa, for the models' awareness of distortion, while the latter ensures the consistency of cross-model predictions between the ERP and TP. Moreover, adversarial intra-projection training is proposed to reduce the inherent gap, between the features of the pinhole images and those of the ERP and TP images, respectively. Importantly, the TP path can be freely removed after training, leading to no additional inference cost. Extensive experiments on two benchmarks show that our DPPASS achieves +1.06% mIoU increment than the state-of-the-art approaches.
updated: Sat Mar 25 2023 04:57:45 GMT+0000 (UTC)
published: Sat Mar 25 2023 04:57:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト