arXiv reaDer
PolyFormer: 画像セグメンテーションを順次ポリゴン生成と呼ぶ
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation
この作業では、ピクセル レベルのセグメンテーション マスクを直接予測する代わりに、画像セグメンテーションを参照する問題を順次ポリゴン生成として定式化し、予測されたポリゴンを後でセグメンテーション マスクに変換できます。これは、一連の画像パッチとテキスト クエリ トークンを入力として受け取り、ポリゴン頂点のシーケンスを自己回帰的に出力する新しいシーケンス ツー シーケンス フレームワークである Polygon Transformer (PolyFormer) によって可能になります。より正確な幾何学的位置特定のために、座標量子化エラーなしで正確な浮動小数点座標を直接予測する回帰ベースのデコーダーを提案します。実験では、PolyFormer は、困難な RefCOCO+ および RefCOCOg データセットで 5.40% および 4.52% の絶対的な改善など、明確なマージンで先行技術を上回っています。また、Ref-DAVIS17 データセットで競争力のある 61.5% J&F を達成するなど、微調整なしで参照ビデオ セグメンテーション タスクで評価すると、強力な一般化能力も示します。
In this work, instead of directly predicting the pixel-level segmentation masks, the problem of referring image segmentation is formulated as sequential polygon generation, and the predicted polygons can be later converted into segmentation masks. This is enabled by a new sequence-to-sequence framework, Polygon Transformer (PolyFormer), which takes a sequence of image patches and text query tokens as input, and outputs a sequence of polygon vertices autoregressively. For more accurate geometric localization, we propose a regression-based decoder, which predicts the precise floating-point coordinates directly, without any coordinate quantization error. In the experiments, PolyFormer outperforms the prior art by a clear margin, e.g., 5.40% and 4.52% absolute improvements on the challenging RefCOCO+ and RefCOCOg datasets. It also shows strong generalization ability when evaluated on the referring video segmentation task without fine-tuning, e.g., achieving competitive 61.5% J&F on the Ref-DAVIS17 dataset.
updated: Mon Mar 27 2023 23:22:31 GMT+0000 (UTC)
published: Tue Feb 14 2023 23:00:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト