人間と物体の相互作用は最も重要な視覚的合図の 1 つであり、自己中心的な行動予測のために人間と物体の相互作用を表現する新しい方法を提案します。アクションの実行によるオブジェクトと人間の手の外観の変化を計算することで相互作用をモデル化し、それらの変化を使用してビデオ表現を改良する、新しいトランスフォーマー バリアントを提案します。具体的には、Spatial Cross-Attention (SCA) を使用して手とオブジェクト間の相互作用をモデル化し、Trajectory Cross-Attention を使用してコンテキスト情報をさらに注入して、環境で洗練された相互作用トークンを取得します。これらのトークンを使用して、アクション予測のためのインタラクション中心のビデオ表現を構築します。大規模な自己中心的なデータセット EPICKTICHENS100 (EK100) および EGTEA Gaze+ で最先端のアクション予測パフォーマンスを達成するモデル InAViT と呼びます。 InAViT は、オブジェクト中心のビデオ表現を含む他のビジュアル トランスフォーマー ベースの方法よりも優れています。 EK100 評価サーバーでは、InAViT はパブリック リーダーボード (提出時) で最高のパフォーマンスを発揮する方法であり、平均上位 5 回の再現率で 2 番目に優れたモデルを 3.3% 上回っています。
Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.