arXiv reaDer
最小限の教師を用いたノイズの多い大規模データセットからの学習
Learning From Noisy Large-Scale Datasets With Minimal Supervision
強力な画像表現を学習するために、ノイズの多いアノテーションを持つ数百万枚の画像を、きれいにアノテーションされた画像の小さなサブセットと組み合わせて効果的に使用するためのアプローチを提示する。クリーンデータとノイズデータを組み合わせる一般的なアプローチの1つは、まず大規模なノイズデータを用いてネットワークの事前学習を行い、その後クリーンデータでファインチューニングするというものである。我々は、このアプローチがクリーンセットに含まれる情報を十分に活用していないことを示している。そこで、クリーン集合とノイズを低減した完全集合の両方を用いてネットワークをファインチューニングする前に、クリーンアノテーションを用いて大規模データセットのノイズを低減する方法を示す。このアプローチは、ノイズの多いアノテーションのクリーン化と画像の正確な分類を共同で学習するマルチタスクネットワークで構成されている。最近公開されたOpen Imagesのデータセットで我々のアプローチを評価している。少量のクリーンなアノテーションセットでは、4万枚程度の画像からなる検証セットの4分の1を使用している。我々の結果は、提案されたアプローチが、オープンイメージデータセットのすべての主要なカテゴリのクラスに対して、直接のファインチューニングよりも明らかに優れていることを示している。さらに、我々のアプローチは、アノテーションに含まれるノイズの範囲が広い多数のクラス(20~80%の偽陽性アノテーション)に対して特に効果的であることがわかった。
We present an approach to effectively use millions of images with noisy annotations in conjunction with a small subset of cleanly-annotated images to learn powerful image representations. One common approach to combine clean and noisy data is to first pre-train a network using the large noisy dataset and then fine-tune with the clean dataset. We show this approach does not fully leverage the information contained in the clean set. Thus, we demonstrate how to use the clean annotations to reduce the noise in the large dataset before fine-tuning the network using both the clean set and the full set with reduced noise. The approach comprises a multi-task network that jointly learns to clean noisy annotations and to accurately classify images. We evaluate our approach on the recently released Open Images dataset, containing ~9 million images, multiple annotations per image and over 6000 unique classes. For the small clean set of annotations we use a quarter of the validation set with ~40k images. Our results demonstrate that the proposed approach clearly outperforms direct fine-tuning across all major categories of classes in the Open Image dataset. Further, our approach is particularly effective for a large number of classes with wide range of noise in annotations (20-80% false positive annotations).
updated: Mon Apr 10 2017 01:25:42 GMT+0000 (UTC)
published: Fri Jan 06 2017 12:38:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト