arXiv reaDer
MaIL:画像セグメンテーションを参照するための統一されたマスク-画像-言語三峰性ネットワーク
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation
参照画像のセグメンテーションは、特定の言語式で記述された指示対象のバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクです。従来技術は、エンコーダー-フュージョン-デコーダーパイプライン内の2つのモダリティとして画像と言語を採用するバイモーダルソリューションを採用しています。ただし、このパイプラインは、2つの理由から、ターゲットタスクには最適ではありません。まず、ユニモーダルエンコーダーによって個別に生成された高レベルの機能のみを融合するため、十分なクロスモーダル学習が妨げられます。第2に、ユニモーダルエンコーダーは個別に事前トレーニングされているため、事前トレーニングされたユニモーダルタスクとターゲットのマルチモーダルタスクの間に不整合が生じます。さらに、このパイプラインは、直感的に有益なインスタンスレベルの機能を無視するか、ほとんど使用しないことがよくあります。これらの問題を軽減するために、MasILを提案します。これは、Mask-Image-Languageトライモーダルエンコーダーを備えたより簡潔なエンコーダー-デコーダーパイプラインです。具体的には、MaILは、ユニモーダル特徴抽出器とその融合モデルを深いモダリティ相互作用エンコーダーに統合し、さまざまなモダリティ間で十分な特徴相互作用を促進します。一方、MaILは、ユニモーダルエンコーダが不要になったため、2番目の制限を直接回避します。さらに、初めて、追加のモダリティとしてインスタンスマスクを導入することを提案します。これにより、インスタンスレベルの機能が明示的に強化され、より細かいセグメンテーション結果が促進されます。提案されたMaILは、RefCOCO、RefCOCO +、G-Refなど、頻繁に使用されるすべての参照画像セグメンテーションデータセットに新しい最先端技術を設定し、以前の最良の方法に対して3%〜10%の大幅な向上を実現しました。コードはまもなくリリースされます。
Referring image segmentation is a typical multi-modal task, which aims at generating a binary mask for referent described in given language expressions. Prior arts adopt a bimodal solution, taking images and languages as two modalities within an encoder-fusion-decoder pipeline. However, this pipeline is sub-optimal for the target task for two reasons. First, they only fuse high-level features produced by uni-modal encoders separately, which hinders sufficient cross-modal learning. Second, the uni-modal encoders are pre-trained independently, which brings inconsistency between pre-trained uni-modal tasks and the target multi-modal task. Besides, this pipeline often ignores or makes little use of intuitively beneficial instance-level features. To relieve these problems, we propose MaIL, which is a more concise encoder-decoder pipeline with a Mask-Image-Language trimodal encoder. Specifically, MaIL unifies uni-modal feature extractors and their fusion model into a deep modality interaction encoder, facilitating sufficient feature interaction across different modalities. Meanwhile, MaIL directly avoids the second limitation since no uni-modal encoders are needed anymore. Moreover, for the first time, we propose to introduce instance masks as an additional modality, which explicitly intensifies instance-level features and promotes finer segmentation results. The proposed MaIL set a new state-of-the-art on all frequently-used referring image segmentation datasets, including RefCOCO, RefCOCO+, and G-Ref, with significant gains, 3%-10% against previous best methods. Code will be released soon.
updated: Sun Nov 21 2021 05:54:17 GMT+0000 (UTC)
published: Sun Nov 21 2021 05:54:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト