モデル表現を人間に合わせると、堅牢性と一般化が向上することがわかっています。ただし、そのような方法は、多くの場合、標準的な観測データに焦点を当てています。合成データは急増しており、機械学習の多くの進歩を後押ししています。しかし、合成ラベルが知覚的に人間に対応しているかどうかは必ずしも明らかではなく、モデル表現が人間に対応していない可能性が高い. mixup で使用される合成データに焦点を当てます。これは、モデルのロバスト性、一般化、およびキャリブレーションを改善することが示されている強力なレギュラーです。私たちは、HILL MixE Suite としてリリースする包括的な一連の誘発インターフェースを設計し、159 人の参加者を募集して、混乱の例について、その不確実性とともに知覚的判断を提供します。人間の認識は、合成ポイントに従来使用されていたラベルと一貫して一致していないことがわかり、特に人間の不確実性を組み込む場合に、下流モデルの信頼性を潜在的に高めるこれらの調査結果の適用可能性を実証し始めています。導き出されたすべての判断は、H-Mix と呼ばれる新しいデータ ハブで公開します。
Aligning model representations to humans has been found to improve robustness and generalization. However, such methods often focus on standard observational data. Synthetic data is proliferating and powering many advances in machine learning; yet, it is not always clear whether synthetic labels are perceptually aligned to humans -- rendering it likely model representations are not human aligned. We focus on the synthetic data used in mixup: a powerful regularizer shown to improve model robustness, generalization, and calibration. We design a comprehensive series of elicitation interfaces, which we release as HILL MixE Suite, and recruit 159 participants to provide perceptual judgments along with their uncertainties, over mixup examples. We find that human perceptions do not consistently align with the labels traditionally used for synthetic points, and begin to demonstrate the applicability of these findings to potentially increase the reliability of downstream models, particularly when incorporating human uncertainty. We release all elicited judgments in a new data hub we call H-Mix.