最初の不可知論的なマルチクラスオブジェクトカウントアプローチであるSIMCOを紹介します。 SIMCOは、新しい合成2D形状データセットであるInShapeで事前に(1回だけ)トレーニングされた新しいMaskRCNNベースのアーキテクチャを介して前景オブジェクトを検出することから始めます。アイデアは、原始的な2D形状(円、正方形、長方形など)に似たすべてのオブジェクトを強調表示することです。検出された各オブジェクトは、新しい類似性ベースのヘッドブランチから取得された低次元の埋め込みによって記述されます。この後者はトリプレットロスを実装し、同様のオブジェクト(同じ2D形状+色とスケール)を近くにマッピングするように促します。その後、SIMCOはこの埋め込みをクラスタリングに使用して、さまざまなタイプのオブジェクトを出現させてカウントできるようにし、SIMCOを最初のマルチクラス教師なしカウンターにします。実験によると、SIMCOはベンチマークのカウントに関して最先端のスコアを提供し、多くの困難な画像理解タスクにも役立つことが示されています。
We present SIMCO, the first agnostic multi-class object counting approach. SIMCO starts by detecting foreground objects through a novel Mask RCNN-based architecture trained beforehand (just once) on a brand-new synthetic 2D shape dataset, InShape; the idea is to highlight every object resembling a primitive 2D shape (circle, square, rectangle, etc.). Each object detected is described by a low-dimensional embedding, obtained from a novel similarity-based head branch; this latter implements a triplet loss, encouraging similar objects (same 2D shape + color and scale) to map close. Subsequently, SIMCO uses this embedding for clustering, so that different types of objects can emerge and be counted, making SIMCO the very first multi-class unsupervised counter. Experiments show that SIMCO provides state-of-the-art scores on counting benchmarks and that it can also help in many challenging image understanding tasks.