合成データはウェブ上で急増しており、機械学習の多くの進歩を後押ししています。ただし、合成ラベルが人間にとって知覚的に敏感であるかどうかは、必ずしも明らかではありません。 Web は、オンラインの引き出しを通じてこの問題に対処するための一歩を踏み出すためのプラットフォームを提供してくれます。 HILL MixE Suite としてリリースし、159 人の参加者を募集して一連の誘発インターフェースを設計し、ミックスアップ トレーニング中に構築された合成データの種類に対する知覚的判断を提供します。これは、モデルのロバスト性、一般化、およびキャリブレーションを改善することが示されている強力なレギュライザーです。人間の知覚は、合成ポイントに従来使用されていたラベルと一貫して一致していないことがわかり、下流モデルの信頼性を潜在的に高めるこれらの調査結果の適用可能性を実証し始めています。導き出されたすべての判断は、H-Mix と呼ばれる新しいデータ ハブで公開します。
Synthetic data is proliferating on the web and powering many advances in machine learning. However, it is not always clear if synthetic labels are perceptually sensible to humans. The web provides us with a platform to take a step towards addressing this question through online elicitation. We design a series of elicitation interfaces, which we release as HILL MixE Suite, and recruit 159 participants, to provide perceptual judgments over the kinds of synthetic data constructed during mixup training: a powerful regularizer shown to improve model robustness, generalization, and calibration. We find that human perception does not consistently align with the labels traditionally used for synthetic points and begin to demonstrate the applicability of these findings to potentially increase the reliability of downstream models. We release all elicited judgments in a new data hub we call H-Mix.