汎用画像認識は、コンピュータービジョンにおける基本的かつかなり重要な視覚問題です。このタスクの主な課題の1つは、ラベルがまだ1つのホットである一方、通常は単一の画像に複数のオブジェクトが含まれているという事実にあります。このホワイトペーパーでは、2つの異なる画像認識の問題に伴うこれらの課題への取り組みに焦点を当てています。統合モデルフレームワークによるマルチモデルアンサンブルとノイズの多いデータ認識です。よく知られているように、通常、最適なパフォーマンスのディープニューラルモデルは、データセットに含まれる変動やノイズを軽減できるため、複数のベースレベルネットワークのアンサンブルです。残念ながら、これらの多くのネットワークを保存するために必要なスペース、および実行時にそれらを実行するために必要な時間は、テストセットが大きいアプリケーション(ImageNetなど)での使用を禁止しています。この論文では、大規模で複雑なトレーニング済みアンサンブルを単一のネットワークに圧縮する方法を示します。この方法では、さまざまなトレーニング済みディープニューラルネットワーク(DNN)の知識が抽出され、単一のDNNに転送されます。さまざまなトレーニング済み(教師)モデルから多様な知識を抽出するために、ブロックベースのトレーニング損失を定義する敵対ベースの学習戦略を使用して、事前定義された学生ネットワークを導き、最適化して教師モデルの知識を回復し、教師の特徴と生徒の特徴を同時に区別するために、識別者ネットワークを促進します。 CIFAR-10 / 100、SVHN、ImageNet、およびiMaterialist Challengeデータセットに関する広範な実験により、MEALメソッドの有効性が実証されています。 ImageNetでは、ResNet-50ベースのMEALは、トップ1/5 21.79%/ 5.99%のvalエラーを達成し、元のモデルより2.06%/ 1.14%優れています。 iMaterialist Challenge Datasetでは、ResNet-101の強力なベースラインモデルで、MEALが上位3 1.15%(公式評価指標)の顕著な改善を達成しています。
Generic Image recognition is a fundamental and fairly important visual problem in computer vision. One of the major challenges of this task lies in the fact that single image usually has multiple objects inside while the labels are still one-hot, another one is noisy and sometimes missing labels when annotated by humans. In this paper, we focus on tackling these challenges accompanying with two different image recognition problems: multi-model ensemble and noisy data recognition with a unified framework. As is well-known, usually the best performing deep neural models are ensembles of multiple base-level networks, as it can mitigate the variation or noise containing in the dataset. Unfortunately, the space required to store these many networks, and the time required to execute them at runtime, prohibit their use in applications where test sets are large (e.g., ImageNet). In this paper, we present a method for compressing large, complex trained ensembles into a single network, where the knowledge from a variety of trained deep neural networks (DNNs) is distilled and transferred to a single DNN. In order to distill diverse knowledge from different trained (teacher) models, we propose to use adversarial-based learning strategy where we define a block-wise training loss to guide and optimize the predefined student network to recover the knowledge in teacher models, and to promote the discriminator network to distinguish teacher vs. student features simultaneously. Extensive experiments on CIFAR-10/100, SVHN, ImageNet and iMaterialist Challenge Dataset demonstrate the effectiveness of our MEAL method. On ImageNet, our ResNet-50 based MEAL achieves top-1/5 21.79%/5.99% val error, which outperforms the original model by 2.06%/1.14%. On iMaterialist Challenge Dataset, our MEAL obtains a remarkable improvement of top-3 1.15% (official evaluation metric) on a strong baseline model of ResNet-101.