オブジェクトとは、対象となるエンティティのことで、オブジェクトの機能は、オブジェクトとの対話方法によって決まります。この作業では、人間と物体の相互作用について推論するデュアルアテンションネットワークモデルを提案します。二重注意フレームワークは、それぞれオブジェクトとアクションの重要な機能に重みを付けます。その結果、オブジェクトとアクションの認識は相互に利益をもたらします。提案されたモデルは、人間とオブジェクトの相互作用データセットSomething-Somethingの競合分類性能を示しています。また、ビデオレベルのラベルのみでトレーニングされているにもかかわらず、弱い時空のローカリゼーションとアフォーダンスのセグメンテーションを実行できます。モデルは、アクションがいつ発生し、どのオブジェクトが操作されているかを検出するだけでなく、オブジェクトのどの部分が対話されているかを識別します。プロジェクトページ:\ url {https://dual-attention-network.github.io/。
Objects are entities we act upon, where the functionality of an object is determined by how we interact with it. In this work we propose a Dual Attention Network model which reasons about human-object interactions. The dual-attentional framework weights the important features for objects and actions respectively. As a result, the recognition of objects and actions mutually benefit each other. The proposed model shows competitive classification performance on the human-object interaction dataset Something-Something. Besides, it can perform weak spatiotemporal localization and affordance segmentation, despite being trained only with video-level labels. The model not only finds when an action is happening and which object is being manipulated, but also identifies which part of the object is being interacted with. Project page: \url{https://dual-attention-network.github.io/.