ロングテール分布のデータセットのトレーニングは、分類や検出などの主要な認識タスクにとって困難でした。この課題に対処するために、画像のリサンプリングは通常、シンプルで効果的なアプローチとして導入されています。ただし、1つの画像に複数のクラスが存在する可能性があるため、ロングテール検出は分類とは異なることがわかります。その結果、画像のリサンプリングだけでは、オブジェクトレベルで十分にバランスの取れた分布を生成するのに十分ではありません。動的なエピソード記憶バンクに基づくオブジェクト中心の記憶再生戦略を導入することにより、オブジェクトレベルのリサンプリングに対処します。提案された戦略には2つの利点があります。1)大幅な追加計算を行わない便利なオブジェクトレベルのリサンプリング、および2)モデルの更新による暗黙的な機能レベルの拡張です。画像レベルとオブジェクトレベルのリサンプリングの両方が重要であることを示し、したがって、それらを共同リサンプリング戦略(RIO)と統合します。私たちの方法は、さまざまなバックボーンにわたってLVISv0.5での最先端のロングテール検出およびセグメンテーション方法よりも優れています。コードはhttps://github.com/NVlabs/RIOで入手できます。
Training on datasets with long-tailed distributions has been challenging for major recognition tasks such as classification and detection. To deal with this challenge, image resampling is typically introduced as a simple but effective approach. However, we observe that long-tailed detection differs from classification since multiple classes may be present in one image. As a result, image resampling alone is not enough to yield a sufficiently balanced distribution at the object level. We address object-level resampling by introducing an object-centric memory replay strategy based on dynamic, episodic memory banks. Our proposed strategy has two benefits: 1) convenient object-level resampling without significant extra computation, and 2) implicit feature-level augmentation from model updates. We show that image-level and object-level resamplings are both important, and thus unify them with a joint resampling strategy (RIO). Our method outperforms state-of-the-art long-tailed detection and segmentation methods on LVIS v0.5 across various backbones. Code is available at https://github.com/NVlabs/RIO.