arXiv reaDer
ビデオアクション予測のための誘導的注意
Inductive Attention for Video Action Anticipation
時空間観測に基づいて将来の行動を予測することは、ビデオの理解と予測的なコンピューター ビジョンに不可欠です。さらに、将来を予測できるモデルには重要な用途があり、イベントが発生する前に反応する予防システムに役立ちます。ただし、アクション認識タスクとは異なり、観察時に将来の情報にアクセスすることはできません。モデルは、予測タスクを解決するためにビデオ フレームをターゲット アクションに直接マッピングすることはできません。代わりに、関連する証拠を可能な将来のアクションに関連付けるために、一時的な推論が必要です。その結果、行動認識モデルに基づく既存のソリューションは、次善の策にすぎません。最近、研究者は、観察ウィンドウを拡張して過去の瞬間からより長い行動前のプロファイルをキャプチャし、注意を活用して微妙な証拠を取得して予測予測を改善することを提案しました。ただし、既存のアテンション デザインでは通常、フレーム入力をクエリとして使用しますが、これは最適ではありません。ビデオ フレームは将来のアクションに弱くしか接続されないためです。この目的のために、IAMと呼ばれる誘導的注意モデルを提案します。これは、現在の予測事前確率をクエリとして活用して将来のアクションを推測し、長いビデオコンテンツを効率的に処理できます。さらに、私たちの方法は、注意設計における多対多の関連付けを介して、将来の不確実性を考慮しています。その結果、IAM は、大幅に少ないモデル パラメーターを使用しながら、複数の大規模な自己中心的なビデオ データセットで最先端の予測モデルを一貫して上回っています。
Anticipating future actions based on spatiotemporal observations is essential in video understanding and predictive computer vision. Moreover, a model capable of anticipating the future has important applications, it can benefit precautionary systems to react before an event occurs. However, unlike in the action recognition task, future information is inaccessible at observation time -- a model cannot directly map the video frames to the target action to solve the anticipation task. Instead, the temporal inference is required to associate the relevant evidence with possible future actions. Consequently, existing solutions based on the action recognition models are only suboptimal. Recently, researchers proposed extending the observation window to capture longer pre-action profiles from past moments and leveraging attention to retrieve the subtle evidence to improve the anticipation predictions. However, existing attention designs typically use frame inputs as the query which is suboptimal, as a video frame only weakly connects to the future action. To this end, we propose an inductive attention model, dubbed IAM, which leverages the current prediction priors as the query to infer future action and can efficiently process the long video content. Furthermore, our method considers the uncertainty of the future via the many-to-many association in the attention design. As a result, IAM consistently outperforms the state-of-the-art anticipation models on multiple large-scale egocentric video datasets while using significantly fewer model parameters.
updated: Sat Mar 18 2023 04:48:38 GMT+0000 (UTC)
published: Sat Dec 17 2022 09:51:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト