オブジェクトをパーツで表すのは自然なことです。これは、オブジェクト認識とセグメンテーションのアルゴリズムのパフォーマンスを向上させる可能性がありますが、アクティビティ認識などのダウンストリームタスクにも役立ちます。ただし、パーツベースのモデルの研究は、ピクセルごとのパーツ注釈を含むデータセットがないために妨げられています。これは、オブジェクトパーツに注釈を付けるのが困難でコストが高いことが一因であるため、人間(パーツベースのモデルに関する大きな文献が存在する場合)を除いて、ほとんど行われていません。この問題に対処するために、パーツセグメンテーションアノテーションを備えた大規模で高品質のデータセットであるPartImageNetを提案します。これは、ImageNetの158のクラスと、約24,000の画像で構成されています。 PartImageNetは、既存のパーツデータセット(人間のデータセットを除く)と比較して桁違いに大きいサイズでありながら、非剛体の関節オブジェクトを含むクラスの一般的なセットにパーツレベルの注釈を提供するという点でユニークです。オブジェクトセグメンテーション、セマンティックパーツセグメンテーション、少数ショット学習、パーツ検出など、多くのビジョンタスクに利用できます。これらのタスクを研究し、一連のベースラインを設定する包括的な実験を実施します。データセットとスクリプトはhttps://github.com/TACJu/PartImageNetでリリースされています。
It is natural to represent objects in terms of their parts. This has the potential to improve the performance of algorithms for object recognition and segmentation but can also help for downstream tasks like activity recognition. Research on part-based models, however, is hindered by the lack of datasets with per-pixel part annotations. This is partly due to the difficulty and high cost of annotating object parts so it has rarely been done except for humans (where there exists a big literature on part-based models). To help address this problem, we propose PartImageNet, a large, high-quality dataset with part segmentation annotations. It consists of 158 classes from ImageNet with approximately 24,000 images. PartImageNet is unique because it offers part-level annotations on a general set of classes including non-rigid, articulated objects, while having an order of magnitude larger size compared to existing part datasets (excluding datasets of humans). It can be utilized for many vision tasks including Object Segmentation, Semantic Part Segmentation, Few-shot Learning and Part Discovery. We conduct comprehensive experiments which study these tasks and set up a set of baselines. The dataset and scripts are released at https://github.com/TACJu/PartImageNet.