Reference Expression Generation (REG) と Comprehension (REC) は、2 つの高度に相関するタスクです。 REG と REC の関係を利用するために REG と REC を同時にモデル化することは、両方を改善する有望な方法です。ただし、個別の入力の問題と、単一のモデルでそれらの間の接続を構築することは、ジョイント モデルの設計とトレーニングに課題をもたらします。この問題に対処するために、UniRef という名前の REG と REC の統合モデルを提案します。これらの 2 つのタスクを、慎重に設計された Image-Region-Text Fusion レイヤー (IRTF) で統合します。IRTF は、画像相互注意と領域相互注意を介して画像、領域、およびテキストを融合します。さらに、IRTF は REC タスクの疑似入力領域を生成して、REC と REG で同一の表現空間を共有するための統一された方法を有効にすることができます。さらに、多粒度コーパスで UniRef モデルを事前トレーニングするために、視覚条件付きマスク言語モデリング (VMLM) とテキスト条件付き領域予測 (TRP) を提案します。 VMLM と TRP は、それぞれ REG と REC に直接関連していますが、互いに助け合うことができます。 RefCOCO、RefCOCO+、RefCOCOg の 3 つのベンチマーク データセットで広範な実験を行います。実験結果は、REG と REC の両方で、モデルが以前の最先端の方法よりも優れていることを示しています。
Reference Expression Generation (REG) and Comprehension (REC) are two highly correlated tasks. Modeling REG and REC simultaneously for utilizing the relation between them is a promising way to improve both. However, the problem of distinct inputs, as well as building connections between them in a single model, brings challenges to the design and training of the joint model. To address the problems, we propose a unified model for REG and REC, named UniRef. It unifies these two tasks with the carefully-designed Image-Region-Text Fusion layer (IRTF), which fuses the image, region and text via the image cross-attention and region cross-attention. Additionally, IRTF could generate pseudo input regions for the REC task to enable a uniform way for sharing the identical representation space across the REC and REG. We further propose Vision-conditioned Masked Language Modeling (VMLM) and Text-Conditioned Region Prediction (TRP) to pre-train UniRef model on multi-granular corpora. The VMLM and TRP are directly related to REG and REC, respectively, but could help each other. We conduct extensive experiments on three benchmark datasets, RefCOCO, RefCOCO+ and RefCOCOg. Experimental results show that our model outperforms previous state-of-the-art methods on both REG and REC.