ビデオ ポートレート セグメンテーション (VPS) は、ビデオ フレームから目立つ前景ポートレートをセグメント化することを目的としており、近年大きな注目を集めています。ただし、既存の VPS データセットは単純であるため、このタスクの広範な調査には制限が生じます。この研究では、7 つのシナリオ カテゴリの 101 個のビデオ クリップで構成される新しい複雑な大規模マルチシーン ビデオ ポートレート セグメンテーション データセット MVPS を提案します。このデータセットでは、10,843 個のサンプル フレームがピクセル レベルで細かく注釈付けされています。データセットには多様なシーンと複雑な背景環境があり、私たちの知る限りでは VPS で最も複雑なデータセットです。データセットの構築中にポートレートを含む多数のビデオを観察した結果、人体の関節構造により、ポートレートの動きは部分的に関連付けられており、異なる部分の動きが比較的独立していることがわかりました。つまり、ポートレートのさまざまな部分の動きがアンバランスになります。このアンバランスに対して、直感的で合理的な考えは、ポートレートをパーツに切り離すことで、ポートレートのさまざまな動きの状態をよりうまく活用できるということです。これを達成するために、ビデオ ポートレート セグメンテーション用の Part-Decoupling Network (PDNet) を提案します。具体的には、ポートレートを監督なしでパーツに分割し、異なるパーツごとに指定された識別特徴に対する異なる注意力を利用する、フレーム間パーツ判別注意(IPDA)モジュールが提案されています。これにより、動きのアンバランスな人物部分に適切に注目して、部位ごとの相関関係を抽出することができ、より正確に人物を切り出すことができる。実験結果は、私たちの方法が最先端の方法と比較して優れたパフォーマンスを達成することを示しています。
Video portrait segmentation (VPS), aiming at segmenting prominent foreground portraits from video frames, has received much attention in recent years. However, simplicity of existing VPS datasets leads to a limitation on extensive research of the task. In this work, we propose a new intricate large-scale Multi-scene Video Portrait Segmentation dataset MVPS consisting of 101 video clips in 7 scenario categories, in which 10,843 sampled frames are finely annotated at pixel level. The dataset has diverse scenes and complicated background environments, which is the most complex dataset in VPS to our best knowledge. Through the observation of a large number of videos with portraits during dataset construction, we find that due to the joint structure of human body, motion of portraits is part-associated, which leads that different parts are relatively independent in motion. That is, motion of different parts of the portraits is unbalanced. Towards this unbalance, an intuitive and reasonable idea is that different motion states in portraits can be better exploited by decoupling the portraits into parts. To achieve this, we propose a Part-Decoupling Network (PDNet) for video portrait segmentation. Specifically, an Inter-frame Part-Discriminated Attention (IPDA) module is proposed which unsupervisely segments portrait into parts and utilizes different attentiveness on discriminative features specified to each different part. In this way, appropriate attention can be imposed to portrait parts with unbalanced motion to extract part-discriminated correlations, so that the portraits can be segmented more accurately. Experimental results demonstrate that our method achieves leading performance with the comparison to state-of-the-art methods.