arXiv reaDer
CMT-DeepLab:パノプティックセグメンテーション用のクラスタリングマスクトランスフォーマー
CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation
クラスタリングを中心に設計されたパノプティコンセグメンテーションのためのトランスベースのフレームワークであるクラスタリングマスクトランスフォーマー(CMT-DeepLab)を提案します。セグメンテーションと検出で使用される既存のトランスアーキテクチャを再考します。 CMT-DeepLabは、オブジェクトクエリをクラスターセンターと見なします。クラスターセンターは、セグメンテーションに適用されたときにピクセルをグループ化する役割を果たします。クラスタリングは、最初に特徴の親和性によってクラスターにピクセルを割り当て、次にクラスターの中心とピクセルの特徴を更新するという交互の手順で計算されます。これらの操作は一緒になって、クラスタリングマスクトランスフォーマー(CMT)レイヤーを構成します。これにより、より高密度で、最終的なセグメンテーションタスクとより一貫性のあるクロスアテンションが生成されます。 CMT-DeepLabは、従来技術に比べて4.4%PQのパフォーマンスを大幅に向上させ、COCOテスト開発セットで55.7%PQの新しい最先端技術を実現します。
We propose Clustering Mask Transformer (CMT-DeepLab), a transformer-based framework for panoptic segmentation designed around clustering. It rethinks the existing transformer architectures used in segmentation and detection; CMT-DeepLab considers the object queries as cluster centers, which fill the role of grouping the pixels when applied to segmentation. The clustering is computed with an alternating procedure, by first assigning pixels to the clusters by their feature affinity, and then updating the cluster centers and pixel features. Together, these operations comprise the Clustering Mask Transformer (CMT) layer, which produces cross-attention that is denser and more consistent with the final segmentation task. CMT-DeepLab improves the performance over prior art significantly by 4.4% PQ, achieving a new state-of-the-art of 55.7% PQ on the COCO test-dev set.
updated: Fri Jun 17 2022 18:01:01 GMT+0000 (UTC)
published: Fri Jun 17 2022 18:01:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト