既存の視覚表現学習タスクでは、ディープ畳み込みニューラルネットワーク(CNN)は、ImageNetなどの単一のタグで注釈が付けられた画像でトレーニングされることがよくあります。ただし、1つのタグで1つの画像のすべての重要な内容を記述することはできず、トレーニング中にいくつかの有用な視覚情報が無駄になる場合があります。この作業では、複数のタグで注釈付けされた画像からCNNを訓練し、訓練されたCNNモデルの視覚的表現の品質を向上させることを提案します。そのために、Tencent ML-Imagesと呼ばれる18M画像と11Kカテゴリを持つ大規模なマルチラベル画像データベースを構築します。 Tencent ML-Imagesでマルチラベル出力を使用してResNet-101モデルを効率的にトレーニングします。大規模な分散型深層学習フレームワーク(TFplus)に基づいて、60エポックで90時間かかります。 Tencent ML-Imagesチェックポイントの視覚的表現の質は、ImageNetおよびCaltech-256での単一ラベル画像分類、PASCAL VOC 2007でのオブジェクト検出、PASCAL VOC 2012でのセマンティックセグメンテーションなど、3つの転送学習タスクによって検証されます。 Tencent ML-Imagesデータベース、ResNet-101のチェックポイント、およびすべてのトレーニングコードは、https://github.com/Tencent/tencent-ml-imagesでリリースされています。研究および業界のコミュニティで他のビジョンタスクを促進することが期待されています。
In existing visual representation learning tasks, deep convolutional neural networks (CNNs) are often trained on images annotated with single tags, such as ImageNet. However, a single tag cannot describe all important contents of one image, and some useful visual information may be wasted during training. In this work, we propose to train CNNs from images annotated with multiple tags, to enhance the quality of visual representation of the trained CNN model. To this end, we build a large-scale multi-label image database with 18M images and 11K categories, dubbed Tencent ML-Images. We efficiently train the ResNet-101 model with multi-label outputs on Tencent ML-Images, taking 90 hours for 60 epochs, based on a large-scale distributed deep learning framework,i.e.,TFplus. The good quality of the visual representation of the Tencent ML-Images checkpoint is verified through three transfer learning tasks, including single-label image classification on ImageNet and Caltech-256, object detection on PASCAL VOC 2007, and semantic segmentation on PASCAL VOC 2012. The Tencent ML-Images database, the checkpoints of ResNet-101, and all the training codehave been released at https://github.com/Tencent/tencent-ml-images. It is expected to promote other vision tasks in the research and industry community.