arXiv reaDer
CoKe:ロバストなキーポイント検出のためのローカライズされた対照学習
CoKe: Localized Contrastive Learning for Robust Keypoint Detection
キーポイント検出に対する今日の最も一般的なアプローチには、すべてのキーポイントの全体的な表現を学習することを目的とした非常に複雑なネットワークアーキテクチャが含まれます。この作業では、一歩下がって質問します。標準のバックボーンアーキテクチャの出力からローカルキーポイント表現を簡単に学習できますか?これにより、特にオブジェクトの大部分が遮られている場合に、ネットワークがよりシンプルで堅牢になります。表現学習の観点から問題を検討することにより、これが可能であることを示します。具体的には、フィーチャスペース内の3種類の距離を最適化するために、キーポイントカーネルを選択する必要があります。同じキーポイントのフィーチャは、他のキーポイントのフィーチャとは異なり、互いに類似している必要があります。 。この最適化プロセスは、教師あり対照学習を含むCoKeと呼ばれるフレームワーク内で定式化されます。 CoKeは、大規模なデータセットで表現学習プロセスを有効にするために、いくつかの近似を行う必要があります。特に、非キーポイント特徴を近似するためのクラッターバンクと、特徴抽出器のトレーニング中にキーポイント表現を計算するための運動量更新を導入します。私たちの実験は、CoKeが、すべてのキーポイントを総合的に表すアプローチ(Stacked Hourglass Networks、MSS-Net)や、詳細な3Dオブジェクトジオメトリ(StarMap)によって監視されるアプローチと比較して、最先端の結果を達成することを示しています。さらに、CoKeは堅牢であり、オブジェクトが部分的に遮られている場合に非常に優れたパフォーマンスを発揮し、さまざまなデータセット(PASCAL3D +、MPII、ObjectNet3D)での関連作業を大幅に上回ります。
Today's most popular approaches to keypoint detection involve very complex network architectures that aim to learn holistic representations of all keypoints. In this work, we take a step back and ask: Can we simply learn a local keypoint representation from the output of a standard backbone architecture? This will help make the network simpler and more robust, particularly if large parts of the object are occluded. We demonstrate that this is possible by looking at the problem from the perspective of representation learning. Specifically, the keypoint kernels need to be chosen to optimize three types of distances in the feature space: Features of the same keypoint should be similar to each other, while differing from those of other keypoints, and also being distinct from features from the background clutter. We formulate this optimization process within a framework, which we call CoKe, which includes supervised contrastive learning. CoKe needs to make several approximations to enable representation learning process on large datasets. In particular, we introduce a clutter bank to approximate non-keypoint features, and a momentum update to compute the keypoint representation while training the feature extractor. Our experiments show that CoKe achieves state-of-the-art results compared to approaches that jointly represent all keypoints holistically (Stacked Hourglass Networks, MSS-Net) as well as to approaches that are supervised by detailed 3D object geometry (StarMap). Moreover, CoKe is robust and performs exceptionally well when objects are partially occluded and significantly outperforms related work on a range of diverse datasets (PASCAL3D+, MPII, ObjectNet3D).
updated: Mon Nov 23 2020 16:22:35 GMT+0000 (UTC)
published: Tue Sep 29 2020 16:00:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト