arXiv reaDer
部分ラベルを使用したマルチラベル認識のための構造化セマンティック転送
Structured Semantic Transfer for Multi-Label Recognition with Partial Labels
マルチラベル画像認識は、実際の画像が本質的に複数のセマンティックラベルを持っているため、基本的でありながら実用的なタスクです。ただし、入力画像と出力ラベルスペースの両方が複雑であるため、大規模なマルチラベル注釈を収集することは困難です。注釈のコストを削減するために、部分的なラベルを使用してマルチラベル認識モデルをトレーニングできる構造化セマンティック転送(SST)フレームワークを提案します。つまり、画像ごとに一部のラベルが既知であり、他のラベルが欠落している(不明なラベルとも呼ばれます)。フレームワークは、既知のラベルの知識を転送して未知のラベルの疑似ラベルを生成するために、画像内および画像間のセマンティック相関を調査する2つの補完的な転送モジュールで構成されています。具体的には、画像内セマンティック転送モジュールは、画像固有のラベル共起行列を学習し、この行列に基づいて未知のラベルを補完するように既知のラベルをマッピングします。一方、クロスイメージ転送モジュールは、カテゴリ固有の機能の類似性を学習し、類似性の高い未知のラベルを補完するのに役立ちます。最後に、既知のラベルと生成されたラベルの両方を使用して、マルチラベル認識モデルをトレーニングします。 Microsoft COCO、Visual Genome、およびPascal VOCデータセットに関する広範な実験は、提案されたSSTフレームワークが現在の最先端のアルゴリズムよりも優れたパフォーマンスを実現することを示しています。コードはhttps://github.com/HCPLab-SYSU/HCP-MLR-PLで入手できます。
Multi-label image recognition is a fundamental yet practical task because real-world images inherently possess multiple semantic labels. However, it is difficult to collect large-scale multi-label annotations due to the complexity of both the input images and output label spaces. To reduce the annotation cost, we propose a structured semantic transfer (SST) framework that enables training multi-label recognition models with partial labels, i.e., merely some labels are known while other labels are missing (also called unknown labels) per image. The framework consists of two complementary transfer modules that explore within-image and cross-image semantic correlations to transfer knowledge of known labels to generate pseudo labels for unknown labels. Specifically, an intra-image semantic transfer module learns image-specific label co-occurrence matrix and maps the known labels to complement unknown labels based on this matrix. Meanwhile, a cross-image transfer module learns category-specific feature similarities and helps complement unknown labels with high similarities. Finally, both known and generated labels are used to train the multi-label recognition models. Extensive experiments on the Microsoft COCO, Visual Genome and Pascal VOC datasets show that the proposed SST framework obtains superior performance over current state-of-the-art algorithms. Codes are available at https://github.com/HCPLab-SYSU/HCP-MLR-PL.
updated: Wed Dec 22 2021 01:40:19 GMT+0000 (UTC)
published: Tue Dec 21 2021 02:15:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト