アンサンブルは、機械学習モデルのパフォーマンスを向上させるための普遍的に有用なアプローチです。ただし、アンサンブル内の個々のモデルは、従来、アンサンブル全体に関する情報にアクセスすることなく、別々の段階で独立してトレーニングされていました。モデルの集合を一流の市民として扱うために、多くの共蒸留アプローチが提案されました。このペーパーでは、アンサンブルと蒸留の間のより深いつながりを明らかにし、よりシンプルでありながらより効果的な共蒸留アーキテクチャを考え出します。 ImageNet、YouTube-8M、Kineticsを含む大規模なデータセットで、単一のディープニューラルネットワークを、サイズが小さいだけでなくパフォーマンスが優れたマルチヘッドモデルに変換できる一般的な手順を示します。このモデルは、人間の介入なしで単一段階で提案された共蒸留損失でエンドツーエンドで最適化できます。
Ensembling is a universally useful approach to boost the performance of machine learning models. However, individual models in an ensemble were traditionally trained independently in separate stages without information access about the overall ensemble. Many co-distillation approaches were proposed in order to treat model ensembling as first-class citizens. In this paper, we reveal a deeper connection between ensembling and distillation, and come up with a simpler yet more effective co-distillation architecture. On large-scale datasets including ImageNet, YouTube-8M, and Kinetics, we demonstrate a general procedure that can convert a single deep neural network to a multi-headed model that has not only a smaller size but also better performance. The model can be optimized end-to-end with our proposed co-distillation loss in a single stage without human intervention.