arXiv reaDer
SynthRef: オブジェクト セグメンテーションのための合成参照式の生成
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation
深層学習の最近の進歩により、言語ガイド付きビデオ オブジェクト セグメンテーションなどの視覚的グラウンディング タスクが大幅に進歩しました。ただし、これらのタスクのために大規模なデータセットを収集することは、ボトルネックを表す注釈時間の点で高価です。この目的のために、画像 (またはビデオ フレーム) 内のターゲット オブジェクトの合成参照式を生成するための新しい方法、つまり SynthRef を提案し、ビデオ オブジェクトのセグメンテーションのための合成参照式を使用した最初の大規模データセットを提示および普及します。 .私たちの実験は、合成参照式を使用してトレーニングすることにより、追加の注釈コストなしで、モデルがさまざまなデータセットにわたって一般化する能力を向上できることを示しています。さらに、私たちの定式化により、オブジェクト検出またはセグメンテーション データセットへの適用が可能になります。
Recent advances in deep learning have brought significant progress in visual grounding tasks such as language-guided video object segmentation. However, collecting large datasets for these tasks is expensive in terms of annotation time, which represents a bottleneck. To this end, we propose a novel method, namely SynthRef, for generating synthetic referring expressions for target objects in an image (or video frame), and we also present and disseminate the first large-scale dataset with synthetic referring expressions for video object segmentation. Our experiments demonstrate that by training with our synthetic referring expressions one can improve the ability of a model to generalize across different datasets, without any additional annotation cost. Moreover, our formulation allows its application to any object detection or segmentation dataset.
updated: Tue Jun 08 2021 14:28:13 GMT+0000 (UTC)
published: Tue Jun 08 2021 14:28:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト