arXiv reaDer
対比損失とマルチデータセットトレーニングアプローチによるVSPWデータセットのセマンティックセグメンテーション
Semantic Segmentation on VSPW Dataset through Contrastive Loss and Multi-dataset Training Approach
ビデオ シーンの解析には時間情報が組み込まれているため、画像シーンの解析と比較して予測の一貫性と精度を高めることができます。追加された時間的次元により、シーンをより包括的に理解できるようになり、より信頼性の高い結果が得られます。この論文では、コントラスト損失による時空間相関の強化に焦点を当てた、ビデオ セマンティック セグメンテーションに関する CVPR2023 ワークショップの優勝ソリューションを紹介します。また、ラベル マッピング手法を利用して、マルチ データセット トレーニングの影響も調査します。最終的な結果は、上記の 2 つのモデルの出力を集約することです。私たちのアプローチは、VSPW データセットで 65.95% の mIoU パフォーマンスを達成し、CVPR 2023 の VSPW チャレンジで 1 位にランクされました。
Video scene parsing incorporates temporal information, which can enhance the consistency and accuracy of predictions compared to image scene parsing. The added temporal dimension enables a more comprehensive understanding of the scene, leading to more reliable results. This paper presents the winning solution of the CVPR2023 workshop for video semantic segmentation, focusing on enhancing Spatial-Temporal correlations with contrastive loss. We also explore the influence of multi-dataset training by utilizing a label-mapping technique. And the final result is aggregating the output of the above two models. Our approach achieves 65.95% mIoU performance on the VSPW dataset, ranked 1st place on the VSPW challenge at CVPR 2023.
updated: Tue Jun 06 2023 08:53:53 GMT+0000 (UTC)
published: Tue Jun 06 2023 08:53:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト