arXiv reaDer
特徴の配置による教師なし部品の発見
Unsupervised Part Discovery via Feature Alignment
オブジェクトを個々の部分の観点から理解することは重要です。これにより、オブジェクトの幾何学的構造を正確に理解でき、オブジェクトが新しいポーズで見られたときや部分的にオクルージョンされたときにオブジェクトの認識が向上します。ただし、大規模なデータセット内のパーツの手動注釈は、時間と費用がかかります。この論文では、教師なしの方法で、つまり、グラウンドトゥルースパーツやキーポイントアノテーションなしでオブジェクトパーツを発見することを目指しています。私たちのアプローチは、同じクラスの同じポーズのオブジェクトは、同じ空間位置にパーツを配置する必要があるという直感に基づいています。ニューラルネットワークの機能は迷惑変数に対してほとんど不変であり、同じオブジェクトカテゴリの画像間の変動の主な残りの原因はオブジェクトのポーズであるという特性を利用します。具体的には、トレーニング画像が与えられると、対応する特徴マップのアフィン配置を通じて、同じポーズで同じオブジェクトカテゴリのインスタンスを示す一連の類似した画像が見つかります。位置合わせされた特徴マップの平均は、ディープネットワークバックボーンの教師ありトレーニングの疑似グラウンドトゥルースアノテーションとして機能します。推論中の部品検出は、フィードフォワードニューラルネットワーク以外の追加のモジュールやオーバーヘッドがなく、シンプルで高速です。異なるドメインからのいくつかのデータセットでの実験により、提案された方法の有効性が検証されます。たとえば、VehiclePartで37.8 mAPを達成しました。これは、以前の方法よりも少なくとも4.2優れています。
Understanding objects in terms of their individual parts is important, because it enables a precise understanding of the objects' geometrical structure, and enhances object recognition when the object is seen in a novel pose or under partial occlusion. However, the manual annotation of parts in large scale datasets is time consuming and expensive. In this paper, we aim at discovering object parts in an unsupervised manner, i.e., without ground-truth part or keypoint annotations. Our approach builds on the intuition that objects of the same class in a similar pose should have their parts aligned at similar spatial locations. We exploit the property that neural network features are largely invariant to nuisance variables and the main remaining source of variations between images of the same object category is the object pose. Specifically, given a training image, we find a set of similar images that show instances of the same object category in the same pose, through an affine alignment of their corresponding feature maps. The average of the aligned feature maps serves as pseudo ground-truth annotation for a supervised training of the deep network backbone. During inference, part detection is simple and fast, without any extra modules or overheads other than a feed-forward neural network. Our experiments on several datasets from different domains verify the effectiveness of the proposed method. For example, we achieve 37.8 mAP on VehiclePart, which is at least 4.2 better than previous methods.
updated: Tue Dec 01 2020 07:25:00 GMT+0000 (UTC)
published: Tue Dec 01 2020 07:25:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト