arXiv reaDer
自己中心的なビデオでのコンテキストを意識した予測のために次にアクティブなオブジェクトを活用する
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos
オブジェクトは、人間とオブジェクトの相互作用を理解するために非常に重要です。関連するオブジェクトを特定することにより、これらのオブジェクトで発生する可能性のある将来の相互作用やアクションを予測することもできます。この論文では、短期オブジェクト相互作用予測 (STA) の問題を研究し、観測されたオブジェクトに対応するマルチモーダルなエンドツーエンド変換ネットワークである NAOGAT (Next-Active-Object Guided Anticipation Transformer) を提案します。次のアクティブ オブジェクト (NAO) を予測し、最終的にはコンテキストを認識した将来のアクションを予測するようにモデルをガイドするためにフレームを使用します。このタスクは、アクションが発生するオブジェクトと、その後のインタラクションが開始される時間、別名接触時間 (TTC) とともに、将来のアクションを予測する必要があるため、困難です。アクション予測のための既存のビデオ モデリング アーキテクチャと比較して、NAOGAT はオブジェクトとグローバル シーン コンテキストの間の関係をキャプチャして、次のアクティブなオブジェクトの検出を予測し、これらの検出を前提とした関連する将来のアクションを予測し、オブジェクトのダイナミクスを活用して精度を向上させます。実際、私たちのアプローチの重要な強みの 1 つは、他のモデルでは無視されることが多い特定のクリップ内のオブジェクトのモーション ダイナミクスを活用し、オブジェクト中心の情報とモーション中心の情報を個別にデコードできることです。私たちの実験を通じて、接触までの時間や次にアクティブなオブジェクトの位置特定など、いくつかの追加の指標によって測定したところ、Ego4D と EpicKitchens-100 (「Unseen Set」) という 2 つの別個のデータセットで、私たちのモデルが既存の手法よりも優れていることがわかりました。コードは承認されると利用可能になります。
Objects are crucial for understanding human-object interactions. By identifying the relevant objects, one can also predict potential future interactions or actions that may occur with these objects. In this paper, we study the problem of Short-Term Object interaction anticipation (STA) and propose NAOGAT (Next-Active-Object Guided Anticipation Transformer), a multi-modal end-to-end transformer network, that attends to objects in observed frames in order to anticipate the next-active-object (NAO) and, eventually, to guide the model to predict context-aware future actions. The task is challenging since it requires anticipating future action along with the object with which the action occurs and the time after which the interaction will begin, a.k.a. the time to contact (TTC). Compared to existing video modeling architectures for action anticipation, NAOGAT captures the relationship between objects and the global scene context in order to predict detections for the next active object and anticipate relevant future actions given these detections, leveraging the objects' dynamics to improve accuracy. One of the key strengths of our approach, in fact, is its ability to exploit the motion dynamics of objects within a given clip, which is often ignored by other models, and separately decoding the object-centric and motion-centric information. Through our experiments, we show that our model outperforms existing methods on two separate datasets, Ego4D and EpicKitchens-100 ("Unseen Set"), as measured by several additional metrics, such as time to contact, and next-active-object localization. The code will be available upon acceptance.
updated: Wed Aug 16 2023 12:07:02 GMT+0000 (UTC)
published: Wed Aug 16 2023 12:07:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト