arXiv reaDer
レスキューのための事前認識合成データ: 非常に限られた実際のデータを使用した動物の姿勢推定
Prior-Aware Synthetic Data to the Rescue: Animal Pose Estimation with Very Limited Real Data
正確に注釈が付けられた画像データセットは、ポーズから動物の行動を研究するために不可欠なコンポーネントです。私たちが知っている種と存在する可能性のある種の数と比較すると、既存のラベル付きポーズ データセットはそれらのほんの一部しかカバーしていませんが、包括的な大規模データセットを構築するには法外な費用がかかります。ここでは、対象動物からの少量の実画像のみを必要とする、四足動物の姿勢推定を対象とした非常にデータ効率の良い戦略を提示します。 ImageNet などの一般的な画像データセットで事前トレーニング済みの重みを使用してバックボーン ネットワークを微調整することで、対象動物の姿勢データに対する高い需要を軽減し、オブジェクト セグメンテーションとキーポイント推定の事前知識を事前に学習することでトレーニング時間を短縮できることが確認されています。ただし、深刻なデータ不足 (つまり、10^2 未満の実画像) に直面した場合、モデルのパフォーマンスは不十分なままであり、特にかなりの柔軟性を持つ手足といくつかの同等のパーツの場合はそうです。したがって、PASyn と呼ばれる事前認識合成動物データ生成パイプラインを導入して、堅牢な姿勢推定に不可欠な動物姿勢データを増強します。 PASyn は、いくつかのアニメーション化された 3D 動物モデルで変分生成モデルをトレーニングすることにより、確率論的に有効な合成ポーズ データセット SynAP を生成します。さらに、スタイル転送戦略を利用して、合成動物の画像を実際の背景にブレンドします。 3 つの一般的なバックボーン ネットワークを使用してアプローチによって改善された点を評価し、公開されている動物のポーズ画像と、動物園で実際の動物から収集されたポーズ推定精度をテストします。
Accurately annotated image datasets are essential components for studying animal behaviors from their poses. Compared to the number of species we know and may exist, the existing labeled pose datasets cover only a small portion of them, while building comprehensive large-scale datasets is prohibitively expensive. Here, we present a very data efficient strategy targeted for pose estimation in quadrupeds that requires only a small amount of real images from the target animal. It is confirmed that fine-tuning a backbone network with pretrained weights on generic image datasets such as ImageNet can mitigate the high demand for target animal pose data and shorten the training time by learning the the prior knowledge of object segmentation and keypoint estimation in advance. However, when faced with serious data scarcity (i.e., <10^2 real images), the model performance stays unsatisfactory, particularly for limbs with considerable flexibility and several comparable parts. We therefore introduce a prior-aware synthetic animal data generation pipeline called PASyn to augment the animal pose data essential for robust pose estimation. PASyn generates a probabilistically-valid synthetic pose dataset, SynAP, through training a variational generative model on several animated 3D animal models. In addition, a style transfer strategy is utilized to blend the synthetic animal image into the real backgrounds. We evaluate the improvement made by our approach with three popular backbone networks and test their pose estimation accuracy on publicly available animal pose images as well as collected from real animals in a zoo.
updated: Tue Aug 30 2022 01:17:50 GMT+0000 (UTC)
published: Tue Aug 30 2022 01:17:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト