Multi-Resolution Weak Supervision for Sequential Data
  トレーニングデータを手動でラベル付けするのは時間がかかり、費用がかかるため、最近の産業および科学研究の取り組みは、監視ソースのより弱いまたはノイズの多い形式に変わりました。ただし、既存の弱い監視手法では、ビデオのような連続データの多重解像度ソースをモデル化できず、個々の要素またはシーケンス内の要素のコレクションにラベルを割り当てることができます。弱い監視の重要な課題は、ラベル付きデータを使用せずにこれらのソースの未知の精度と相関を推定することです。多重解像度ソースは、シーケンスの長さでスケーリングする複雑な相関とサンプルの複雑さにより、この課題を悪化させます。ジュゴン、確率的ラベルをトレーニングデータに割り当てるために複雑な相関を持つ多重解像度の弱い監視ソースをモデル化する最初のフレームワークを提案します。理論的には、ジュゴンは温和な条件下で、観測されていない精度と相関パラメーターを一意に回復し、パラメーターの共有を使用してサンプルの複雑さを改善できることを証明しています。私たちの方法は、臨床医が検証したラベルを人口規模の生物医学ビデオリポジトリに割り当て、36.8 F1ポイントだけ従来の監視よりも優れていることを支援し、専門的なラベル付きデータの不足により機械学習が厳しく制限されている主要なユースケースに対処します。ジュゴンは、いくつかのビデオおよびセンサー分類タスクにおいて、従来の監視よりも平均で16.0 F1ポイント、既存の弱い監視アプローチで24.2 F1ポイント向上しています。
Since manually labeling training data is slow and expensive, recent industrial and scientific research efforts have turned to weaker or noisier forms of supervision sources. However, existing weak supervision approaches fail to model multi-resolution sources for sequential data, like video, that can assign labels to individual elements or collections of elements in a sequence. A key challenge in weak supervision is estimating the unknown accuracies and correlations of these sources without using labeled data. Multi-resolution sources exacerbate this challenge due to complex correlations and sample complexity that scales in the length of the sequence. We propose Dugong, the first framework to model multi-resolution weak supervision sources with complex correlations to assign probabilistic labels to training data. Theoretically, we prove that Dugong, under mild conditions, can uniquely recover the unobserved accuracy and correlation parameters and use parameter sharing to improve sample complexity. Our method assigns clinician-validated labels to population-scale biomedical video repositories, helping outperform traditional supervision by 36.8 F1 points and addressing a key use case where machine learning has been severely limited by the lack of expert labeled data. On average, Dugong improves over traditional supervision by 16.0 F1 points and existing weak supervision approaches by 24.2 F1 points across several video and sensor classification tasks.
