arXiv reaDer
Temporal DINO: 行動予測を強化する自己監視型ビデオ戦略
Temporal DINO: A Self-supervised Video Strategy to Enhance Action Prediction
行動予測という新興分​​野は、自動運転、アクティビティ分析、人間とコンピューターのインタラクションなど、さまざまなコンピューター ビジョン アプリケーションで重要な役割を果たしています。大きな進歩にもかかわらず、ビデオ データに固有の高次元性、複雑なダイナミクス、および不確実性により、将来のアクションを正確に予測することは依然として困難な問題です。従来の教師ありアプローチでは大量のラベル付きデータが必要であり、取得には費用と時間がかかります。この論文では、DINO (ラベルのない自己蒸留) にヒントを得た、行動予測を強化するための新しい自己教師ありビデオ戦略を紹介します。 Temporal-DINO アプローチでは 2 つのモデルが使用されます。過去のフレームを処理する「学生」。そして、過去と未来のフレームの両方を処理する「教師」が、より広範な時間的コンテキストを可能にします。トレーニング中、教師は生徒が過去のフレームのみを観察して将来のコンテキストを学習できるように指導します。この戦略は、3D-ResNet、Transformer、および LSTM アーキテクチャを使用して、アクション予測ダウンストリーム タスクの ROAD データセット上で評価されます。実験結果は、これらのアーキテクチャ全体で予測パフォーマンスが大幅に向上していることを示しており、私たちの手法では平均 9.9% の精度ポイント (PP) の向上が達成されており、長期的な依存関係を捕捉するバックボーンの機能を強化する有効性が強調されています。さらに、私たちのアプローチは、事前トレーニング データセットのサイズと必要なエポック数に関する効率性を実証しています。この方法は、さまざまなバックボーン アーキテクチャの検討、複数の予測ホライズンへの対応、手作りの拡張への依存の軽減、事前トレーニング プロセスの単一ステージへの合理化など、他のアプローチに存在する制限を克服します。これらの発見は、アクティビティ認識、動作計画、シーン理解などのさまざまなビデオベースのタスクにおける私たちのアプローチの可能性を強調しています。
The emerging field of action prediction plays a vital role in various computer vision applications such as autonomous driving, activity analysis and human-computer interaction. Despite significant advancements, accurately predicting future actions remains a challenging problem due to high dimensionality, complex dynamics and uncertainties inherent in video data. Traditional supervised approaches require large amounts of labelled data, which is expensive and time-consuming to obtain. This paper introduces a novel self-supervised video strategy for enhancing action prediction inspired by DINO (self-distillation with no labels). The Temporal-DINO approach employs two models; a 'student' processing past frames; and a 'teacher' processing both past and future frames, enabling a broader temporal context. During training, the teacher guides the student to learn future context by only observing past frames. The strategy is evaluated on ROAD dataset for the action prediction downstream task using 3D-ResNet, Transformer, and LSTM architectures. The experimental results showcase significant improvements in prediction performance across these architectures, with our method achieving an average enhancement of 9.9% Precision Points (PP), highlighting its effectiveness in enhancing the backbones' capabilities of capturing long-term dependencies. Furthermore, our approach demonstrates efficiency regarding the pretraining dataset size and the number of epochs required. This method overcomes limitations present in other approaches, including considering various backbone architectures, addressing multiple prediction horizons, reducing reliance on hand-crafted augmentations, and streamlining the pretraining process into a single stage. These findings highlight the potential of our approach in diverse video-based tasks such as activity recognition, motion planning, and scene understanding.
updated: Sun Aug 20 2023 11:05:09 GMT+0000 (UTC)
published: Tue Aug 08 2023 21:18:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト