arXiv reaDer
ストリーミングの自己中心的な行動予測に向けて
Towards Streaming Egocentric Action Anticipation
自己中心的な行動予測は、過去のビデオ観察に基づいて、カメラ着用者が実行する可能性が高い将来の行動を予測するタスクです。実際のシステムでは、アクションが開始する前にそのような予測を出力することが基本ですが、過去の作業では、一般に、評価中のモデルの実行時間に注意を払っていませんでした。実際、現在の評価スキームは、予測をオフラインで行うことができることを前提としているため、計算リソースは制限されていません。対照的に、この論文では、現在のビデオセグメントが処理された後にのみ予測が利用可能であると仮定して、パフォーマンス評価のためにモデルの実行時間を明示的に考慮する「ストリーミング」自己中心性アクション予測評価プロトコルを提案します。方法。提案された評価スキームに従って、2つの人気のあるデータセットで自己中心的な行動予測のためのさまざまな最先端のアプローチをベンチマークします。私たちの分析によると、実行時間が短いモデルは、検討対象のストリーミングシナリオで重いモデルよりもパフォーマンスが優れている傾向があるため、標準のオフライン評価で一般的に観察されるランキングが変更されます。この観察に基づいて、単純なフィードフォワード3D CNNで構成される軽量アクション予測モデルを提案します。これは、知識蒸留技術とカスタム損失を使用して最適化することを提案します。結果は、提案されたアプローチが、他の軽量モデルと組み合わせても、ストリーミングシナリオの従来技術よりも優れていることを示しています。
Egocentric action anticipation is the task of predicting the future actions a camera wearer will likely perform based on past video observations. While in a real-world system it is fundamental to output such predictions before the action begins, past works have not generally paid attention to model runtime during evaluation. Indeed, current evaluation schemes assume that predictions can be made offline, and hence that computational resources are not limited. In contrast, in this paper, we propose a "streaming" egocentric action anticipation evaluation protocol which explicitly considers model runtime for performance assessment, assuming that predictions will be available only after the current video segment is processed, which depends on the processing time of a method. Following the proposed evaluation scheme, we benchmark different state-of-the-art approaches for egocentric action anticipation on two popular datasets. Our analysis shows that models with a smaller runtime tend to outperform heavier models in the considered streaming scenario, thus changing the rankings generally observed in standard offline evaluations. Based on this observation, we propose a lightweight action anticipation model consisting in a simple feed-forward 3D CNN, which we propose to optimize using knowledge distillation techniques and a custom loss. The results show that the proposed approach outperforms prior art in the streaming scenario, also in combination with other lightweight models.
updated: Tue May 10 2022 08:58:53 GMT+0000 (UTC)
published: Mon Oct 11 2021 16:22:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト