arXiv reaDer
T-LEAP:時間情報を使用した歩行牛の閉塞ロバストポーズ推定
T-LEAP: occlusion-robust pose estimation of walking cows using temporal information
酪農場の牛群の規模が拡大し続けるにつれて、牛の自動健康監視が関心を集めています。乳牛によく見られる健康障害である跛行は、一般的に牛の歩行を分析することによって検出されます。モデルは画像やビデオの解剖学的ランドマークを自動的にローカライズすることを学習するため、牛の歩行はポーズ推定モデルを使用してビデオで追跡できます。ほとんどの動物のポーズ推定モデルは静的です。つまり、ビデオはフレームごとに処理され、時間情報を使用しません。この作業では、動物のポーズ推定のための静的な深層学習モデルが、過去のフレームからの情報を含む時間モデルに拡張されました。静的および時間的ポーズ推定モデルのパフォーマンスを比較しました。データは、屋外の通路を歩いている30頭の異なる乳牛のビデオ(30 fps)から抽出された4つの連続したフレームの1059サンプルで構成されていました。ファーム環境はオクルージョンが発生しやすいため、ビデオに人工的なオクルージョンを追加することにより、静的モデルと時間モデルの堅牢性をテストしました。実験は、非閉塞データで、静的アプローチと時間的アプローチの両方が99%の正しいキーポイントのパーセンテージ(PCKh@0.2)を達成したことを示しました。閉塞データでは、時間的アプローチが静的アプローチを最大32.9%上回っています。これは、時間的データを使用することが、酪農場などの閉塞しやすい環境での姿勢推定に有益であることを示唆しています。時間モデルの一般化機能は、未知の牛(トレーニングセットに存在しない牛)を含むデータでテストすることによって評価されました。その結果、平均検出率(PCKh@0.2)は既知の牛で93.8%、未知の牛で87.6%であり、モデルが新しい牛にうまく一般化でき、新しい牛に簡単に微調整できることを示しています。群れ。最後に、オクルージョンや未知の牛などの難しいタスクでは、より深いアーキテクチャがより有益であることを示しました。
As herd size on dairy farms continue to increase, automatic health monitoring of cows has gained in interest. Lameness, a prevalent health disorder in dairy cows, is commonly detected by analyzing the gait of cows. A cow's gait can be tracked in videos using pose estimation models because models learn to automatically localize anatomical landmarks in images and videos. Most animal pose estimation models are static, that is, videos are processed frame by frame and do not use any temporal information. In this work, a static deep-learning model for animal-pose-estimation was extended to a temporal model that includes information from past frames. We compared the performance of the static and temporal pose estimation models. The data consisted of 1059 samples of 4 consecutive frames extracted from videos (30 fps) of 30 different dairy cows walking through an outdoor passageway. As farm environments are prone to occlusions, we tested the robustness of the static and temporal models by adding artificial occlusions to the videos. The experiments showed that, on non-occluded data, both static and temporal approaches achieved a Percentage of Correct Keypoints (PCKh@0.2) of 99%. On occluded data, our temporal approach outperformed the static one by up to 32.9%, suggesting that using temporal data is beneficial for pose estimation in environments prone to occlusions, such as dairy farms. The generalization capabilities of the temporal model was evaluated by testing it on data containing unknown cows (cows not present in the training set). The results showed that the average detection rate (PCKh@0.2) was of 93.8% on known cows and 87.6% on unknown cows, indicating that the model is capable of generalizing well to new cows and that they could be easily fine-tuned to new herds. Finally, we showed that with harder tasks, such as occlusions and unknown cows, a deeper architecture was more beneficial.
updated: Fri Apr 16 2021 10:50:56 GMT+0000 (UTC)
published: Fri Apr 16 2021 10:50:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト