arXiv reaDer
ビデオの時空間一貫性をマイニングすることによるボックスからのマスクの生成
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos
ビデオ内のオブジェクトのセグメント化は、基本的なコンピュータビジョンタスクです。現在のディープラーニングベースのパラダイムは、強力ですがデータを大量に消費するソリューションを提供します。ただし、現在のデータセットは、ビデオ内のオブジェクトマスクに注釈を付けるコストと人的労力によって制限されています。これにより、既存のビデオセグメンテーション方法のパフォーマンスと一般化機能が効果的に制限されます。この問題に対処するために、より弱い形式のバウンディングボックス注釈を調査します。ビデオのフレームごとのバウンディングボックス注釈からセグメンテーションマスクを生成する方法を紹介します。この目的のために、複数のフレームにわたるオブジェクトと背景の外観の一貫性を効果的にマイニングする時空間集約モジュールを提案します。結果として得られた正確なマスクを使用して、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱教師ありトレーニングを行います。境界ボックスの注釈のみを使用して、大規模な追跡データセットのセグメンテーションマスクを生成します。追加のデータは、大幅に優れた一般化パフォーマンスを提供し、VOSとより困難な追跡ドメインの両方で最先端の結果をもたらします。
Segmenting objects in videos is a fundamental computer vision task. The current deep learning based paradigm offers a powerful, but data-hungry solution. However, current datasets are limited by the cost and human effort of annotating object masks in videos. This effectively limits the performance and generalization capabilities of existing video segmentation methods. To address this issue, we explore weaker form of bounding box annotations. We introduce a method for generating segmentation masks from per-frame bounding box annotations in videos. To this end, we propose a spatio-temporal aggregation module that effectively mines consistencies in the object and background appearance across multiple frames. We use our resulting accurate masks for weakly supervised training of video object segmentation (VOS) networks. We generate segmentation masks for large scale tracking datasets, using only their bounding box annotations. The additional data provides substantially better generalization performance leading to state-of-the-art results in both the VOS and more challenging tracking domain.
updated: Wed Jan 06 2021 18:56:24 GMT+0000 (UTC)
published: Wed Jan 06 2021 18:56:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト