Human-centric Relation Segmentation: Dataset and Solution
視覚と言語理解の技術は目覚ましい進歩を遂げましたが、現在のところ、非常にきめ細かい詳細を含む問題をうまく処理することは困難です。たとえば、ロボットが「女の子の左手に本を持ってきて」と言われた場合、女の子が左手と右手にそれぞれ1冊の本を持っていると、ほとんどの既存の方法は失敗します。この作業では、HOI-detのきめ細かいケースとして、人間中心位セグメンテーション(HRS)という新しいタスクを紹介します。 HRSは、人間と周囲のエンティティとの関係を予測し、ピクセルレベルのマスクとして表される関係相関のある人間の部分を特定することを目的としています。上記の例の場合、HRSタスクはリレーショントリプレットの形式で結果を生成しますそして、ロボットがつかむタスクを簡単に実行できる本のセグメンテーションマスクを正確にします。これに対応して、この新しいタスクの新しいPerson In Context(PIC)データセットを収集します。このデータセットには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23のリレーションカテゴリ、25のセマンティックヒューマンパーツを含む、高密度に注釈が付けられたエンティティのセグメンテーションとリレーションが含まれています。また、HRSタスクのソリューションとして、同時マッチングおよびセグメンテーション(SMS)フレームワークを提案します。 I 3つのブランチの出力が融合されて、最終的なHRS結果が生成されます。 PICおよびV-COCOデータセットに関する広範な実験では、提案されたSMSメソッドが36FPSの推論速度でベースラインを上回っていることを示しています。
Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.
updated: Tue May 25 2021 12:53:03 GMT+0000 (UTC)
published: Mon May 24 2021 09:20:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト