arXiv reaDer
初期領域プロキシによるセマンティックセグメンテーション
Semantic Segmentation by Early Region Proxy
一般的なビジョンバックボーンは、構造化された機能を操作します。妥協案として、セマンティックセグメンテーションは、密集した通常のグリッドでのポイントごとの予測として長い間モデル化されてきました。この作業では、画像を学習可能な領域のテッセレーションとして解釈することから始まる、斬新で効率的なモデリングを紹介します。各領域は、柔軟な幾何学を持ち、均質なセマンティクスを備えています。リージョンごとのコンテキストをモデル化するために、Transformerを利用して、特定のリージョンのプロキシとして機能するリージョンの埋め込みにマルチレイヤーの自己注意を適用することにより、シーケンスごとにリージョンをエンコードします。セマンティックセグメンテーションは、デコーダーが不要になった単一の線形分類器を使用して、エンコードされた領域の埋め込みに加えて領域ごとの予測として実行されるようになりました。提案されたRegProxyモデルは、一般的なデカルトフィーチャのレイアウトを破棄し、純粋に領域レベルで動作します。したがって、従来の高密度予測方法と比較して、最も競争力のあるパフォーマンスと効率のトレードオフを示します。たとえば、ADE20Kでは、小型のRegProxy-S / 16は25%のパラメーターと4%の計算を使用して、最高のCNNモデルを上回りますが、最大のRegProxy-L / 16は52.9mIoUを達成し、最先端の性能を上回ります。より少ないリソースで2.1%増加します。コードとモデルはhttps://github.com/YiF-Zhang/RegionProxyで入手できます。
Typical vision backbones manipulate structured features. As a compromise, semantic segmentation has long been modeled as per-point prediction on dense regular grids. In this work, we present a novel and efficient modeling that starts from interpreting the image as a tessellation of learnable regions, each of which has flexible geometrics and carries homogeneous semantics. To model region-wise context, we exploit Transformer to encode regions in a sequence-to-sequence manner by applying multi-layer self-attention on the region embeddings, which serve as proxies of specific regions. Semantic segmentation is now carried out as per-region prediction on top of the encoded region embeddings using a single linear classifier, where a decoder is no longer needed. The proposed RegProxy model discards the common Cartesian feature layout and operates purely at region level. Hence, it exhibits the most competitive performance-efficiency trade-off compared with the conventional dense prediction methods. For example, on ADE20K, the small-sized RegProxy-S/16 outperforms the best CNN model using 25% parameters and 4% computation, while the largest RegProxy-L/16 achieves 52.9mIoU which outperforms the state-of-the-art by 2.1% with fewer resources. Codes and models are available at https://github.com/YiF-Zhang/RegionProxy.
updated: Sat Mar 26 2022 10:48:32 GMT+0000 (UTC)
published: Sat Mar 26 2022 10:48:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト