AntGPT: 大規模言語モデルはビデオからの長期的なアクションの予測に役立ちますか?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?
俳優の現在のアクション(卵を割るなど)の後に一般的に何が起こるかを知ることで、俳優の将来のアクション(卵を混ぜるなど)をよりよく予測できるでしょうか?俳優の長期的な目標 (卵チャーハンを作るなど) もわかったらどうなるでしょうか?長期アクション予測 (LTA) タスクは、動詞と名詞のシーケンスの形式でビデオ観察からアクターの将来の行動を予測することを目的としており、人間とマシンのインタラクションにとって重要です。我々は、LTA タスクを 2 つの観点から定式化することを提案します。1 つは時間ダイナミクスをモデル化することで次のアクションを自己回帰的に予測するボトムアップ アプローチです。もう 1 つは、アクターの目標を推測し、目標を達成するために必要な手順を計画するトップダウンのアプローチです。私たちは、手順テキストデータ (レシピ、ハウツーなど) で事前トレーニングされた大規模言語モデル (LLM) が、両方の観点から LTA を支援する可能性があると仮説を立てています。これは、考えられる次のアクションに関する事前知識を提供したり、手順の観察された部分から目標を推測したりするのに役立ちます。 LLM を活用するために、2 段階のフレームワークである AntGPT を提案します。まず、観察されたビデオ内ですでに実行されたアクションを認識し、次に LLM に、条件付き生成によって将来のアクションを予測するか、または思考連鎖プロンプトによって目標を推測して手順全体を計画するように依頼します。 Ego4D LTA v1 および v2 ベンチマーク、EPIC-Kitchens-55、および EGTEA GAZE+ の実験結果は、私たちが提案したアプローチの有効性を示しています。 AntGPT は、上記のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を正常に推測できるため、定性分析を通じて目標条件付きの「反事実」予測を実行できます。コードとモデルは でリリースされます。
Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing what commonly happens after his/her current action (e.g. crack eggs)? What if we also know the longer-term goal of the actor (e.g. making egg fried rice)? The long-term action anticipation (LTA) task aims to predict an actor's future behavior from video observations in the form of verb and noun sequences, and it is crucial for human-machine interaction. We propose to formulate the LTA task from two perspectives: a bottom-up approach that predicts the next actions autoregressively by modeling temporal dynamics; and a top-down approach that infers the goal of the actor and plans the needed procedure to accomplish the goal. We hypothesize that large language models (LLMs), which have been pretrained on procedure text data (e.g. recipes, how-tos), have the potential to help LTA from both perspectives. It can help provide the prior knowledge on the possible next actions, and infer the goal given the observed part of a procedure, respectively. To leverage the LLMs, we propose a two-stage framework, AntGPT. It first recognizes the actions already performed in the observed videos and then asks an LLM to predict the future actions via conditioned generation, or to infer the goal and plan the whole procedure by chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2 benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the effectiveness of our proposed approach. AntGPT achieves state-of-the-art performance on all above benchmarks, and can successfully infer the goal and thus perform goal-conditioned "counterfactual" prediction via qualitative analysis. Code and model will be released at
updated: Mon Apr 01 2024 01:33:53 GMT+0000 (UTC)
published: Mon Jul 31 2023 02:14:19 GMT+0000 (UTC)
