arXiv reaDer
マルチビューコンセンサスによる自己監視による人間の検出とセグメンテーション
Self-supervised Human Detection and Segmentation via Multi-view Consensus
複雑なシーンでの前景オブジェクトの自己監視検出とセグメンテーションは、完全に監視された対応物がドメイン固有のアプリケーションで十分な精度を提供するために過度に大量の注釈付きデータを必要とするため、注目を集めています。ただし、既存の自己監視アプローチは、主に外観と動きに関する制限的な仮定に依存しているため、非常に動的なアクティビティを描写したり、カメラの動きを伴うシーンでの使用は不可能です。この問題を軽減するために、ボクセルグリッドでの粗い3Dローカリゼーションと細粒度のオフセット回帰を介して、トレーニング中に幾何学的制約がマルチビューの一貫性の形で埋め込まれるマルチカメラフレームワークを使用することを提案します。このようにして、複数のビューにわたる提案の同時分布を学習します。推論時に、私たちの方法は単一のRGB画像で動作します。私たちのアプローチは、標準的なベンチマークの画像や従来のHuman3.6Mデータセットの画像とは視覚的に異なる画像で、最先端の自己教師あり検出およびセグメンテーション手法よりも優れていることを示しています。
Self-supervised detection and segmentation of foreground objects in complex scenes is gaining attention as their fully-supervised counterparts require overly large amounts of annotated data to deliver sufficient accuracy in domain-specific applications. However, existing self-supervised approaches predominantly rely on restrictive assumptions on appearance and motion, which precludes their use in scenes depicting highly dynamic activities or involve camera motion. To mitigate this problem, we propose using a multi-camera framework in which geometric constraints are embedded in the form of multi-view consistency during training via coarse 3D localization in a voxel grid and fine-grained offset regression. In this manner, we learn a joint distribution of proposals over multiple views. At inference time, our method operates on single RGB images. We show that our approach outperforms state-of-the-art self-supervised person detection and segmentation techniques on images that visually depart from those of standard benchmarks, as well as on those of the classical Human3.6M dataset.
updated: Wed Dec 09 2020 15:47:21 GMT+0000 (UTC)
published: Wed Dec 09 2020 15:47:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト