arXiv reaDer
SPAC-Net: 強化された姿勢推定のための合成姿勢認識動物制御ネット
SPAC-Net: Synthetic Pose-aware Animal ControlNet for Enhanced Pose Estimation
動物の姿勢推定は重要な研究分野となっていますが、注釈付きデータの不足は、正確なモデルを開発する上で大きな課題となっています。合成データは有望な代替手段として浮上していますが、実際のデータとドメインの不一致が頻繁に見られます。この問題に対処するためにスタイル転送アルゴリズムが提案されていますが、空間的な対応が不十分であり、ラベル情報の損失につながります。この研究では、以前に提案された事前認識合成動物データ生成 (PASyn) パイプラインに ControlNet を組み込む、合成ポーズ認識動物制御ネット (SPAC-Net) と呼ばれる新しいアプローチを紹介します。変分自動エンコーダ (VAE) ベースのデータ生成パイプラインによって生成されたもっともらしいポーズ データを ControlNet ホリスティックにネストされたエッジ検出 (HED) 境界タスク モデルの入力として利用して、実際のデータに近いポーズ ラベルを持つ合成データを生成します。により、実際のデータを必要とせずに高精度の姿勢推定ネットワークをトレーニングできるようになります。さらに、動物と背景の HED 境界を個別に検出する Bi-ControlNet 構造を提案し、生成されるデータの精度と安定性を向上させます。 SPAC-Net パイプラインを使用して、ゼブラとサイの合成画像を生成し、AP10K 実データセットでテストします。これにより、実画像または他の方法で生成された合成データのみを使用する場合と比較して優れたパフォーマンスが実証されます。私たちの研究は、動物の姿勢推定における注釈付きデータが限られているという課題を合成データが克服できる可能性を示しています。
Animal pose estimation has become a crucial area of research, but the scarcity of annotated data is a significant challenge in developing accurate models. Synthetic data has emerged as a promising alternative, but it frequently exhibits domain discrepancies with real data. Style transfer algorithms have been proposed to address this issue, but they suffer from insufficient spatial correspondence, leading to the loss of label information. In this work, we present a new approach called Synthetic Pose-aware Animal ControlNet (SPAC-Net), which incorporates ControlNet into the previously proposed Prior-Aware Synthetic animal data generation (PASyn) pipeline. We leverage the plausible pose data generated by the Variational Auto-Encoder (VAE)-based data generation pipeline as input for the ControlNet Holistically-nested Edge Detection (HED) boundary task model to generate synthetic data with pose labels that are closer to real data, making it possible to train a high-precision pose estimation network without the need for real data. In addition, we propose the Bi-ControlNet structure to separately detect the HED boundary of animals and backgrounds, improving the precision and stability of the generated data. Using the SPAC-Net pipeline, we generate synthetic zebra and rhino images and test them on the AP10K real dataset, demonstrating superior performance compared to using only real images or synthetic data generated by other methods. Our work demonstrates the potential for synthetic data to overcome the challenge of limited annotated data in animal pose estimation.
updated: Mon May 29 2023 01:56:42 GMT+0000 (UTC)
published: Mon May 29 2023 01:56:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト