Pretraining boosts out-of-domain robustness for pose estimation
ニューラルネットワークは、ポーズ推定のための非常に効果的なツールです。ただし、他のコンピュータビジョンタスクと同様に、ドメイン外データに対する堅牢性は、特に実際のアプリケーションで一般的な小さなトレーニングセットの場合、依然として課題です。ここでは、ポーズ推定のために3つのアーキテクチャクラス(MobileNetV2s、ResNets、およびEfficientNets)を使用して一般化機能を調べます。 「ドメイン内」と「ドメイン外」(見えない馬)の両方のベンチマークを可能にする30頭の馬のデータセットを開発しました。これは、現在の人間の姿勢推定ベンチマークでは直接対応していない堅牢性の重要なテストです。 ImageNetで最初に事前トレーニングされた場合、ドメイン内データとドメイン外データの両方で、より優れたImageNetパフォーマンスアーキテクチャのパフォーマンスが向上することを示します。さらに、より優れたImageNetモデルが動物種全体でより一般化することを示します。さらに、ポーズ推定の一般的な破損の新しいベンチマークであるHorse-Cを紹介し、事前トレーニングによってこのドメインシフトコンテキストでもパフォーマンスが向上することを確認します。全体として、私たちの結果は、転送学習がドメイン外の堅牢性に有益であることを示しています。
Neural networks are highly effective tools for pose estimation. However, as in other computer vision tasks, robustness to out-of-domain data remains a challenge, especially for small training sets that are common for real-world applications. Here, we probe the generalization ability with three architecture classes (MobileNetV2s, ResNets, and EfficientNets) for pose estimation. We developed a dataset of 30 horses that allowed for both "within-domain" and "out-of-domain" (unseen horse) benchmarking - this is a crucial test for robustness that current human pose estimation benchmarks do not directly address. We show that better ImageNet-performing architectures perform better on both within- and out-of-domain data if they are first pretrained on ImageNet. We additionally show that better ImageNet models generalize better across animal species. Furthermore, we introduce Horse-C, a new benchmark for common corruptions for pose estimation, and confirm that pretraining increases performance in this domain shift context as well. Overall, our results demonstrate that transfer learning is beneficial for out-of-domain robustness.
updated: Thu Nov 12 2020 18:46:51 GMT+0000 (UTC)
published: Tue Sep 24 2019 23:40:39 GMT+0000 (UTC)
