arXiv reaDer
Efficient Object Annotation via Speaking and Pointing
 ディープニューラルネットワークは、最先端の視覚認識を提供しますが、アノテーションに時間がかかる大規模なデータセットに依存しています。これらのデータセットには通常、2つの段階で注釈が付けられます。(1)画像レベルでオブジェクトクラスの存在を判断し、(2)これらのクラスのすべてのオブジェクトの空間範囲をマークします。この作業では、マウス入力とともに音声を使用して、このプロセスを高速化します。アノテーターに音声を介してオブジェクトクラスの存在を示すことにより、最初にステージ1を改善します。次に、2つの段階を組み合わせます。アノテーターは、マウスを介してオブジェクトの境界ボックスを描画し、同時に音声を介してそのクラスラベルを提供します。音声を使用することには、マウス入力のみに依存するよりも明確な利点があります。まず、高速であり、クラス名に直接アクセスするだけでクラス名に直接アクセスできます。第二に、アノテーターは同時に話し、オブジェクトの位置をマークできます。最後に、音声ベースのインターフェイスは非常にシンプルに保つことができるため、既存のアプローチと比較して、マウスを使用する必要が少なくなります。 COCOおよびILSVRCデータセットに関する広範な実験を通じて、このアプローチが大幅な速度向上で高品質の注釈を生成することを示します。ステージ1では、アノテーションを付けるクラスの階層構造に基づいて、既存のメソッドよりもアノテーション時間が2.3倍から14.9倍短くなります。さらに、2つのステージを組み合わせると、オブジェクトクラスラベルは無料で提供されます。境界ボックスと同時に注釈を付けると、追加コストはゼロになります。 COCOでは、これによりプロセス全体が2段階アプローチより1.9倍速くなります。
Deep neural networks deliver state-of-the-art visual recognition, but they rely on large datasets, which are time-consuming to annotate. These datasets are typically annotated in two stages: (1) determining the presence of object classes at the image level and (2) marking the spatial extent for all objects of these classes. In this work we use speech, together with mouse inputs, to speed up this process. We first improve stage one, by letting annotators indicate object class presence via speech. We then combine the two stages: annotators draw an object bounding box via the mouse and simultaneously provide its class label via speech. Using speech has distinct advantages over relying on mouse inputs alone. First, it is fast and allows for direct access to the class name, by simply saying it. Second, annotators can simultaneously speak and mark an object location. Finally, speech-based interfaces can be kept extremely simple, hence using them requires less mouse movement compared to existing approaches. Through extensive experiments on the COCO and ILSVRC datasets we show that our approach yields high-quality annotations at significant speed gains. Stage one takes 2.3x - 14.9x less annotation time than existing methods based on a hierarchical organization of the classes to be annotated. Moreover, when combining the two stages, we find that object class labels come for free: annotating them at the same time as bounding boxes has zero additional cost. On COCO, this makes the overall process 1.9x faster than the two-stage approach.
updated: Thu Dec 19 2019 12:57:30 GMT+0000 (UTC)
published: Sat May 25 2019 11:36:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト