Scalable Variational Gaussian Processes for Crowdsourcing: Glitch Detection in LIGO
 過去数年間、クラウドソーシングは分類トレーニングセットの取得方法を変えています。クラウドソーシングは、1人の専門アノテーターに頼る代わりに、多数の協力者の間でラベル付けの取り組みを共有します。たとえば、これは、真の重力波の識別を妨げる可能性のあるグリッチを検出するために、受賞者レーザー干渉計重力波観測所(LIGO)によって取得されたデータに適用されています。クラウドソーシングのシナリオは、未知の程度の専門知識を持つアノテーターの異種グループからのさまざまな意見を扱うため、新たな挑戦的な困難をもたらします。ガウス過程(GP)などの確率的手法は、この設定のモデリングに成功していることが証明されています。ただし、GPは大規模なデータセットにうまく対応できないため、実際の実践(特にLIGO)での広範な採用が妨げられます。これにより、ディープラーニングベースのクラウドソーシング手法が最近導入され、最先端技術になりました。ただし、GPの正確な不確実性の定量化は部分的に犠牲になっています。グリッチ検出システムはその予測の非常に正確な確率分布を提供する必要があるため、これはLIGOの天体物理学者にとって重要な側面です。この作業では、最も一般的なスパースGP近似を活用して、ミニバッチに分解する新しいGPベースのクラウドソーシング手法を開発します。これにより、以前は禁止されていたデータセットに対処できます。このアプローチは、クラウドソーシングのためのスケーラブルな変分ガウス過程(SVGPCR)と呼ばれ、GPベースの手法を最新技術に戻し、不確実性の定量化に優れています。 SVGPCRは、LIGOデータに適用した場合、ディープラーニングベースの方法および以前の確率的アプローチよりも優れていることが示されています。さらに、その動作と主な特性は、MNISTデータセットに基づいた制御された実験で慎重に分析されます。
In the last years, crowdsourcing is transforming the way classification training sets are obtained. Instead of relying on a single expert annotator, crowdsourcing shares the labelling effort among a large number of collaborators. For instance, this is being applied to the data acquired by the laureate Laser Interferometer Gravitational Waves Observatory (LIGO), in order to detect glitches which might hinder the identification of true gravitational-waves. The crowdsourcing scenario poses new challenging difficulties, as it deals with different opinions from a heterogeneous group of annotators with unknown degrees of expertise. Probabilistic methods, such as Gaussian Processes (GP), have proven successful in modeling this setting. However, GPs do not scale well to large data sets, which hampers their broad adoption in real practice (in particular at LIGO). This has led to the recent introduction of deep learning based crowdsourcing methods, which have become the state-of-the-art. However, the accurate uncertainty quantification of GPs has been partially sacrificed. This is an important aspect for astrophysicists in LIGO, since a glitch detection system should provide very accurate probability distributions of its predictions. In this work, we leverage the most popular sparse GP approximation to develop a novel GP based crowdsourcing method that factorizes into mini-batches. This makes it able to cope with previously-prohibitive data sets. The approach, which we refer to as Scalable Variational Gaussian Processes for Crowdsourcing (SVGPCR), brings back GP-based methods to the state-of-the-art, and excels at uncertainty quantification. SVGPCR is shown to outperform deep learning based methods and previous probabilistic approaches when applied to the LIGO data. Moreover, its behavior and main properties are carefully analyzed in a controlled experiment based on the MNIST data set.
updated: Tue Nov 05 2019 16:20:38 GMT+0000 (UTC)
published: Tue Nov 05 2019 16:20:38 GMT+0000 (UTC)
