arXiv reaDer
Virtual Multi-Modality Self-Supervised Foreground Matting for Human-Object Interaction
ほとんどの既存の人間のマットアルゴリズムは、純粋な人間のみの前景を背景から分離しようとしました。この論文では、生のRGB画像から人間と物体のインタラクティブな前景(人間と彼または彼女と相互作用する物体)を学習するための仮想マルチモダリティ前景マット(VMFM)法を提案します。 VMFMメソッドは、追加の入力(trimapや既知のバックグラウンドなど)を必要としません。前景マットを自己監視マルチモダリティ問題として再定式化します。3つのオートエンコーダーを使用して、各入力画像を推定深度マップ、セグメンテーションマスク、および相互作用ヒートマップに因数分解します。各モダリティの特性を十分に活用するために、最初にデュアルエンコーダーからデコーダーネットワークをトレーニングして、同じアルファマットを推定します。次に、自己教師あり方法を紹介します。補完学習(CL)を使用して、偏差確率マップを予測し、ラベルなしでモダリティ間で信頼できる勾配を交換します。各モダリティの有効性と補完的な学習におけるさまざまなコンポーネントの重要性を分析するために、広範な実験を実施しました。モデルが最先端の方法よりも優れていることを示します。
Most existing human matting algorithms tried to separate pure human-only foreground from the background. In this paper, we propose a Virtual Multi-modality Foreground Matting (VMFM) method to learn human-object interactive foreground (human and objects interacted with him or her) from a raw RGB image. The VMFM method requires no additional inputs, e.g. trimap or known background. We reformulate foreground matting as a self-supervised multi-modality problem: factor each input image into estimated depth map, segmentation mask, and interaction heatmap using three auto-encoders. In order to fully utilize the characteristics of each modality, we first train a dual encoder-to-decoder network to estimate the same alpha matte. Then we introduce a self-supervised method: Complementary Learning(CL) to predict deviation probability map and exchange reliable gradients across modalities without label. We conducted extensive experiments to analyze the effectiveness of each modality and the significance of different components in complementary learning. We demonstrate that our model outperforms the state-of-the-art methods.
updated: Fri Oct 22 2021 08:21:09 GMT+0000 (UTC)
published: Thu Oct 07 2021 09:03:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト