arXiv reaDer
TagMe:ビデオでのGPS支援自動オブジェクト注釈
TagMe: GPS-Assisted Automatic Object Annotation in Videos
高精度のオブジェクト検出モデルをトレーニングするには、大きくて多様な注釈付きデータセットが必要です。ただし、これらのデータセットの作成は、人間のアノテーターに依存しているため、時間と費用がかかります。 GPSデータを使用する動画の自動オブジェクトアノテーションの新しいアプローチであるTagMeを設計、実装、評価します。オブジェクトのGPSトレースが利用可能な場合、TagMeはGPSトレースからのオブジェクトの動きとビデオ内のピクセルの動きを照合して、ビデオ内のオブジェクトに属するピクセルを見つけ、オブジェクトのバウンディングボックス注釈を作成します。 TagMeはパッシブデータ収集を使用して機能し、人間のアノテーターなしで屋外ビデオストリームから新しいオブジェクトアノテーションを継続的に生成できます。 100本のビデオクリップのデータセットでTagMeを評価します。 TagMeが、完全に自動化された低コストの方法で高品質のオブジェクト注釈を生成できることを示します。従来のヒューマンインザループソリューションと比較して、TagMeは、最大110倍など、はるかに低いコストで同じ量の注釈を生成できます。
Training high-accuracy object detection models requires large and diverse annotated datasets. However, creating these data-sets is time-consuming and expensive since it relies on human annotators. We design, implement, and evaluate TagMe, a new approach for automatic object annotation in videos that uses GPS data. When the GPS trace of an object is available, TagMe matches the object's motion from GPS trace and the pixels' motions in the video to find the pixels belonging to the object in the video and creates the bounding box annotations of the object. TagMe works using passive data collection and can continuously generate new object annotations from outdoor video streams without any human annotators. We evaluate TagMe on a dataset of 100 video clips. We show TagMe can produce high-quality object annotations in a fully-automatic and low-cost way. Compared with the traditional human-in-the-loop solution, TagMe can produce the same amount of annotations at a much lower cost, e.g., up to 110x.
updated: Wed Mar 24 2021 18:15:32 GMT+0000 (UTC)
published: Wed Mar 24 2021 18:15:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト