arXiv reaDer
文字通りおもちゃのデータセットによる階層的画像分類
Hierarchical Image Classification with A Literally Toy Dataset
画像分類における教師なしドメイン適応(UDA)は依然として大きな課題です。既存のUDA画像データセットでは、クラスは通常、単純な分類器をトレーニングできるフラットな方法で編成されます。ただし、一部のシナリオでは、フラットカテゴリは一部の基本クラスに由来します。たとえば、バギーはクラスの鳥に属しています。クラスが上記の特性を持ち、フラットクラスと基本クラスが階層的な画像分類として階層的に編成されている分類タスクを定義します。直感的には、このような階層構造を活用すると、階層的な画像分類に役立ちます。たとえば、混乱しやすい2つのクラスは、まったく異なる基本クラスに属している可能性があります。この論文では、ラベルの階層から学習した特徴を融合することにより、分類のパフォーマンスを向上させます。具体的には、階層ラベルとUDAテクノロジーによって監視される特徴抽出器をトレーニングします。これにより、入力画像に対して複数の特徴が出力されます。その後、機能が連結されて、最も細かいクラスが予測されます。この調査は、Lego-15という名前の新しいデータセットを使用して実施されます。レゴブロックの合成画像と実画像で構成されるLego-15データセットには、15クラスのブリックが含まれています。各クラスは、粗いレベルのラベルと中間レベルのラベルから始まります。たとえば、クラス「85080」はレンガ(粗い)と丸いレンガ(中央)に関連付けられています。このデータセットでは、私たちの方法が階層的画像分類においてUDAのベースラインを超えて一貫した改善をもたらすことを示しています。広範なアブレーションとバリアントの研究は、新しいデータセットと調査されたアルゴリズムへの洞察を提供します。
Unsupervised domain adaptation (UDA) in image classification remains a big challenge. In existing UDA image dataset, classes are usually organized in a flattened way, where a plain classifier can be trained. Yet in some scenarios, the flat categories originate from some base classes. For example, buggies belong to the class bird. We define the classification task where classes have characteristics above and the flat classes and the base classes are organized hierarchically as hierarchical image classification. Intuitively, leveraging such hierarchical structure will benefit hierarchical image classification, e.g., two easily confusing classes may belong to entirely different base classes. In this paper, we improve the performance of classification by fusing features learned from a hierarchy of labels. Specifically, we train feature extractors supervised by hierarchical labels and with UDA technology, which will output multiple features for an input image. The features are subsequently concatenated to predict the finest-grained class. This study is conducted with a new dataset named Lego-15. Consisting of synthetic images and real images of the Lego bricks, the Lego-15 dataset contains 15 classes of bricks. Each class originates from a coarse-level label and a middle-level label. For example, class "85080" is associated with bricks (coarse) and bricks round (middle). In this dataset, we demonstrate that our method brings about consistent improvement over the baseline in UDA in hierarchical image classification. Extensive ablation and variant studies provide insights into the new dataset and the investigated algorithm.
updated: Mon Nov 01 2021 12:35:58 GMT+0000 (UTC)
published: Mon Nov 01 2021 12:35:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト