arXiv reaDer
トークン化されたヒューマンダイナミクス表現に向けて
Towards Tokenized Human Dynamics Representation
人間の行動を理解するための一般的な研究の方向性は、ジャンプや飲酒などの明確なセマンティックコンテンツを含む短いビデオクリップを分析することです。ただし、短いセマンティックアクションを理解する方法は、ダンスなどの長い人間のダイナミクスに直接変換することはできません。この場合、人間の動きにセマンティックなラベルを付けることさえ困難になります。一方、自然言語処理(NLP)コミュニティは、大規模な事前トレーニングによって注釈不足の同様の課題を解決することで進歩を遂げました。これにより、1つのモデルでいくつかのダウンストリームタスクが改善されます。この作業では、ビデオをセグメント化してクラスター化し、自己監視方式で繰り返しの時間パターンに分類する方法、つまり、ビデオのトークン化に向けた主要な障害であるアクトンの発見について学習します。最初に、時間的コンテキストを条件とするビデオフレームの2つの拡張ビューを対比することにより、フレームごとの表現を取得する2段階のフレームワークを提案します。次に、ビデオのコレクション全体のフレーム単位の表現がK-meansによってクラスター化されます。次に、同じクラスター内のフレームから連続モーションシーケンスを形成することにより、アクトンが自動的に抽出されます。ケンドールのタウによるフレーム単位の表現学習ステップと、正規化された相互情報量と言語エントロピーによる語彙構築ステップを評価します。また、このトークン化の3つのアプリケーション、ジャンル分類、アクションセグメンテーション、およびアクション構成についても学習します。 AIST ++およびPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅なパフォーマンスの向上をもたらします。
For human action understanding, a popular research direction is to analyze short video clips with unambiguous semantic content, such as jumping and drinking. However, methods for understanding short semantic actions cannot be directly translated to long human dynamics such as dancing, where it becomes challenging even to label the human movements semantically. Meanwhile, the natural language processing (NLP) community has made progress in solving a similar challenge of annotation scarcity by large-scale pre-training, which improves several downstream tasks with one model. In this work, we study how to segment and cluster videos into recurring temporal patterns in a self-supervised way, namely acton discovery, the main roadblock towards video tokenization. We propose a two-stage framework that first obtains a frame-wise representation by contrasting two augmented views of video frames conditioned on their temporal context. The frame-wise representations across a collection of videos are then clustered by K-means. Actons are then automatically extracted by forming a continuous motion sequence from frames within the same cluster. We evaluate the frame-wise representation learning step by Kendall's Tau and the lexicon building step by normalized mutual information and language entropy. We also study three applications of this tokenization: genre classification, action segmentation, and action composition. On the AIST++ and PKU-MMD datasets, actons bring significant performance improvements compared to several baselines.
updated: Mon Nov 22 2021 18:59:58 GMT+0000 (UTC)
published: Mon Nov 22 2021 18:59:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト