arXiv reaDer
フレーズ学習とラベル構成による人間と物体の相互作用検出の改善
Improving Human-Object Interaction Detection via Phrase Learning and Label Composition
人間と物体の相互作用(HOI)の検出は、人間中心の高レベルのシーン理解における基本的なタスクです。言語優先を活用し、関係表現を向上させるために、HOIブランチと新規フレーズブランチを含むPhraseHOIを提案します。具体的には、フレーズブランチはセマンティック埋め込みによって監視されます。セマンティック埋め込みのグラウンドトゥルースは、余分な人間の努力なしに元のHOIアノテーションから自動的に変換されます。一方、HOIのロングテール問題に対処するために、新しいラベル合成方法が提案されています。これは、セマンティックネイバーによって新しいフレーズラベルを合成します。さらに、フレーズ分岐を最適化するために、蒸留損失とバランスのとれたトリプレット損失からなる損失が提案されます。提案されたPhraseHOIの有効性を証明するために広範な実験が行われ、ベースラインを大幅に改善し、挑戦的なHICO-DETベンチマークでFullおよびNonRareの以前の最先端の方法を上回ります。
Human-Object Interaction (HOI) detection is a fundamental task in high-level human-centric scene understanding. We propose PhraseHOI, containing a HOI branch and a novel phrase branch, to leverage language prior and improve relation expression. Specifically, the phrase branch is supervised by semantic embeddings, whose ground truths are automatically converted from the original HOI annotations without extra human efforts. Meanwhile, a novel label composition method is proposed to deal with the long-tailed problem in HOI, which composites novel phrase labels by semantic neighbors. Further, to optimize the phrase branch, a loss composed of a distilling loss and a balanced triplet loss is proposed. Extensive experiments are conducted to prove the effectiveness of the proposed PhraseHOI, which achieves significant improvement over the baseline and surpasses previous state-of-the-art methods on Full and NonRare on the challenging HICO-DET benchmark.
updated: Sat Jan 15 2022 08:11:40 GMT+0000 (UTC)
published: Tue Dec 14 2021 13:22:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト