GTNet:Guided Transformer Network for Detecting Human-Object Interactions
人間とオブジェクトの相互作用(HOI)検出タスクとは、人間のローカライズ、オブジェクトのローカライズ、および各人間とオブジェクトのペア間の相互作用の予測を指します。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと見なされています。 HOIを検出するには、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の顕著な空間領域を見つけることが重要です。この問題は、提案されている自己注意ベースのガイド付きトランスネットワーク、GTNetによって対処されます。 GTNetは、V-COCOデータセットとHICO-DETデータセットの両方で、以前の最先端の結果に比べて4%〜6%の改善を達成しながら、自己注意を介して人間とオブジェクトの視覚的特徴にこの空間コンテキスト情報をエンコードします。コードはオンラインで利用できるようになります。
The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the proposed self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving a 4%-6% improvement over previous state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
updated: Tue Aug 03 2021 20:18:18 GMT+0000 (UTC)
published: Mon Aug 02 2021 02:06:33 GMT+0000 (UTC)
