arXiv reaDer
行動ビデオにおける自己監視キーポイント発見
Self-Supervised Keypoint Discovery in Behavioral Videos
ラベルのない行動ビデオからエージェントの姿勢と構造を学習する方法を提案します。行動エージェントが一般に行動ビデオの動きの主な原因であるという観察から始めて、私たちの方法である行動キーポイントディスカバリー(B-KinD)は、幾何学的ボトルネックを持つエンコーダーデコーダーアーキテクチャを使用して、ビデオフレーム間の時空間差を再構築します。動きのある領域のみに焦点を当てることにより、私たちのアプローチは、手動の注釈を必要とせずに、入力ビデオに直接作用します。さまざまな種類のエージェント(マウス、ハエ、人間、クラゲ、樹木)での実験により、アプローチの一般性が実証され、発見されたキーポイントが意味的に意味のある身体部分を表し、キーポイント回帰で最先端のパフォーマンスを実現することが明らかになりました。自己監視方式の中で。さらに、B-KinDは、動作分類などのダウンストリームタスクで教師ありキーポイントと同等のパフォーマンスを実現します。これは、私たちの方法が教師あり方法と比較してモデルトレーニングコストを劇的に削減できることを示唆しています。
We propose a method for learning the posture and structure of agents from unlabelled behavioral videos. Starting from the observation that behaving agents are generally the main sources of movement in behavioral videos, our method, Behavioral Keypoint Discovery (B-KinD), uses an encoder-decoder architecture with a geometric bottleneck to reconstruct the spatiotemporal difference between video frames. By focusing only on regions of movement, our approach works directly on input videos without requiring manual annotations. Experiments on a variety of agent types (mouse, fly, human, jellyfish, and trees) demonstrate the generality of our approach and reveal that our discovered keypoints represent semantically meaningful body parts, which achieve state-of-the-art performance on keypoint regression among self-supervised methods. Additionally, B-KinD achieve comparable performance to supervised keypoints on downstream tasks, such as behavior classification, suggesting that our method can dramatically reduce model training costs vis-a-vis supervised methods.
updated: Wed Apr 27 2022 04:46:26 GMT+0000 (UTC)
published: Thu Dec 09 2021 18:55:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト