arXiv reaDer
CoKe: ロバストなキーポイント検出のためのローカライズされた対照学習
CoKe: Localized Contrastive Learning for Robust Keypoint Detection
この論文では、キーポイント検出 (CoKe) のための対照的な学習フレームワークを紹介します。キーポイント検出は、対照学習が適用された他の視覚タスクとは異なります。これは、入力が複数のキーポイントに注釈が付けられた一連の画像であるためです。これには、キーポイントが独立して表現および検出されるように、対照的な学習を拡張する必要があります。これにより、対照的な損失により、キーポイントの特徴が互いに、また背景とは異なるものになります。私たちのアプローチには 2 つの利点があります。キーポイントの検出に対照的な学習を利用できるようになります。また、各キーポイントを個別に検出することで、すべてのキーポイントをまとめて検出しようとする積み重ねられた砂時計ネットワークなどの全体的な方法と比較して、検出がオクルージョンに対してよりロバストになります。私たちの CoKe フレームワークには、いくつかの技術革新が導入されています。特に、以下を紹介します。(i) 非キーポイント機能を表すクラッター バンク。 (ii)キーポイント間の対照的な損失を概算するためにキーポイントのプロトタイプ表現を格納するキーポイントバンク。 (iii)特徴抽出器をトレーニングしながらキーポイントプロトタイプを学習するための累積移動平均更新。さまざまなデータセット (PASCAL3D+、MPII、ObjectNet3D) での私たちの実験は、私たちのアプローチが、文献が膨大な人間のキーポイントに対しても、キーポイント検出の代替方法と同等またはそれ以上に機能することを示しています。さらに、CoKe は、部分的なオクルージョンや、これまでに見られなかったオブジェクトのポーズに対して非常に堅牢であることがわかります。
In this paper, we introduce a contrastive learning framework for keypoint detection (CoKe). Keypoint detection differs from other visual tasks where contrastive learning has been applied because the input is a set of images in which multiple keypoints are annotated. This requires the contrastive learning to be extended such that the keypoints are represented and detected independently, which enables the contrastive loss to make the keypoint features different from each other and from the background. Our approach has two benefits: It enables us to exploit contrastive learning for keypoint detection, and by detecting each keypoint independently the detection becomes more robust to occlusion compared to holistic methods, such as stacked hourglass networks, which attempt to detect all keypoints jointly. Our CoKe framework introduces several technical innovations. In particular, we introduce: (i) A clutter bank to represent non-keypoint features; (ii) a keypoint bank that stores prototypical representations of keypoints to approximate the contrastive loss between keypoints; and (iii) a cumulative moving average update to learn the keypoint prototypes while training the feature extractor. Our experiments on a range of diverse datasets (PASCAL3D+, MPII, ObjectNet3D) show that our approach works as well, or better than, alternative methods for keypoint detection, even for human keypoints, for which the literature is vast. Moreover, we observe that CoKe is exceptionally robust to partial occlusion and previously unseen object poses.
updated: Mon Dec 05 2022 08:56:16 GMT+0000 (UTC)
published: Tue Sep 29 2020 16:00:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト