モデルのアンサンブルによる自動注釈は、ラベルのないデータを学習する効率的な方法です。アンサンブルによって生成された誤ったまたは不正確な注釈は、訓練されたモデルのパフォーマンス低下につながる可能性があります。この問題に対処するために、アンサンブルモデル間のコンセンサスの程度から注釈の品質を予測する訓練されたモデルを使用して、自動ラベル付きデータをフィルタリングすることを提案します。例としてセマンティックセグメンテーションを使用して、不正確なラベルで汚染されたデータのトレーニングに対する提案された自動注釈フィルタリングの利点を示します。さらに、実験結果は、セマンティックセグメンテーションの場合、最新のモデルのパフォーマンスは、元の手動でラベル付けされたデータセットの一部(30%)でトレーニングし、置換することによって達成できることを示しています残りは自動注釈付きの品質フィルタリングされたラベルです。
Auto-annotation by ensemble of models is an efficient method of learning on unlabeled data. Wrong or inaccurate annotations generated by the ensemble may lead to performance degradation of the trained model. To deal with this problem we propose filtering the auto-labeled data using a trained model that predicts the quality of the annotation from the degree of consensus between ensemble models. Using semantic segmentation as an example, we show the advantage of the proposed auto-annotation filtering over training on data contaminated with inaccurate labels. Moreover, our experimental results show that in the case of semantic segmentation, the performance of a state-of-the-art model can be achieved by training it with only a fraction (30%) of the original manually labeled data set, and replacing the rest with the auto-annotated, quality filtered labels.