arXiv reaDer
MPASNET:ビデオシーンでの教師なし深層群集セグメンテーションのためのモーション事前認識シャムネットワーク
MPASNET: Motion Prior-Aware Siamese Network for Unsupervised Deep Crowd Segmentation in Video Scenes
群集セグメンテーションは、混雑したシーン分析の基礎として機能する基本的なタスクであり、洗練されたピクセルレベルのセグメンテーションマップを取得することが非常に望ましいです。ただし、既存のアプローチでは、深層学習モデルをトレーニングするために高密度のピクセルレベルの注釈が必要であるか、物理モデルを使用して光学または粒子の流れから大まかなセグメンテーションマップを作成するだけなので、依然として困難な問題です。この論文では、教師なし群集セマンティックセグメンテーションのためのモーション事前認識シャムネットワーク(MPASNET)を提案します。このモデルは、注釈の必要性を排除するだけでなく、高品質のセグメンテーションマップを生成します。特に、最初にフレーム全体のコヒーレントモーションパターンを分析し、次に集合粒子に円形領域マージ戦略を適用して疑似ラベルを生成します。さらに、MPASNETにシャムブランチを装備して、拡張不変正則化とシャム特徴集約を実現します。ベンチマークデータセットでの実験は、私たちのモデルがmIoUに関して最先端技術を12%以上上回っていることを示しています。
Crowd segmentation is a fundamental task serving as the basis of crowded scene analysis, and it is highly desirable to obtain refined pixel-level segmentation maps. However, it remains a challenging problem, as existing approaches either require dense pixel-level annotations to train deep learning models or merely produce rough segmentation maps from optical or particle flows with physical models. In this paper, we propose the Motion Prior-Aware Siamese Network (MPASNET) for unsupervised crowd semantic segmentation. This model not only eliminates the need for annotation but also yields high-quality segmentation maps. Specially, we first analyze the coherent motion patterns across the frames and then apply a circular region merging strategy on the collective particles to generate pseudo-labels. Moreover, we equip MPASNET with siamese branches for augmentation-invariant regularization and siamese feature aggregation. Experiments over benchmark datasets indicate that our model outperforms the state-of-the-arts by more than 12% in terms of mIoU.
updated: Wed Jun 02 2021 05:02:45 GMT+0000 (UTC)
published: Thu Jan 21 2021 13:55:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト