arXiv reaDer
行動ビデオにおける自己監視キーポイント発見
Self-Supervised Keypoint Discovery in Behavioral Videos
ラベルのない行動ビデオからエージェントの姿勢と構造を学習する方法を提案します。行動エージェントが一般に行動ビデオの動きの主な原因であるという観察から始めて、私たちの方法は、ビデオフレーム間の違いを再構築するために幾何学的ボトルネックを持つエンコーダ-デコーダアーキテクチャを使用します。動きのある領域のみに焦点を当てることにより、私たちのアプローチは、キーポイントやバウンディングボックスなどの手動の注釈を必要とせずに、入力ビデオに直接作用します。さまざまな種類のエージェント(マウス、ハエ、人間、クラゲ、樹木)での実験により、アプローチの一般性が実証され、発見されたキーポイントが意味的に意味のある身体部分を表し、キーポイント回帰で最先端のパフォーマンスを実現することが明らかになりました。自己監視方式の中で。さらに、私たちが発見したキーポイントは、行動分類などのダウンストリームタスクで監視されたキーポイントと同等のパフォーマンスを達成します。これは、私たちの方法が監視された方法に対してモデルトレーニングのコストを劇的に削減できることを示唆しています。
We propose a method for learning the posture and structure of agents from unlabelled behavioral videos. Starting from the observation that behaving agents are generally the main sources of movement in behavioral videos, our method uses an encoder-decoder architecture with a geometric bottleneck to reconstruct the difference between video frames. By focusing only on regions of movement, our approach works directly on input videos without requiring manual annotations, such as keypoints or bounding boxes. Experiments on a variety of agent types (mouse, fly, human, jellyfish, and trees) demonstrate the generality of our approach and reveal that our discovered keypoints represent semantically meaningful body parts, which achieve state-of-the-art performance on keypoint regression among self-supervised methods. Additionally, our discovered keypoints achieve comparable performance to supervised keypoints on downstream tasks, such as behavior classification, suggesting that our method can dramatically reduce the cost of model training vis-a-vis supervised methods.
updated: Thu Dec 09 2021 18:55:53 GMT+0000 (UTC)
published: Thu Dec 09 2021 18:55:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト