arXiv reaDer
高解像度の顕著物体検出のためのリカレント・マルチスケール・トランスフォーマー
Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection
Salient Object Detection (SOD) は、画像またはビデオ内で最も目立つオブジェクトを識別してセグメント化することを目的としています。重要な前処理ステップとして、マルチメディアやビジョンタスクに多くの潜在的な用途があります。近年、撮像素子の進歩に伴い、高精細な画像を実現するSODの需要が高まっています。ただし、従来の SOD 手法は主に低解像度画像に限定されているため、高解像度 SOD (HRSOD) の開発に適応することが困難です。いくつかの HRSOD 手法が登場していますが、トレーニングと評価に十分な大きさのデータセットがありません。さらに、現在の HRSOD メソッドは一般に、不完全なオブジェクト領域と不規則なオブジェクト境界を生成します。上記の問題に対処するために、この研究ではまず、2K ~ 8K 解像度の 10,500 枚の高品質の注釈付き画像を含む新しい HRS10K データセットを提案します。私たちが知る限り、これは HRSOD タスク用の最大のデータセットであり、モデルのトレーニングと評価における今後の作業に大きく役立ちます。さらに、HRSOD のパフォーマンスを向上させるために、共有トランスフォーマーとマルチスケール リファインメント アーキテクチャを繰り返し利用する新しいリカレント マルチスケール トランスフォーマー (RMFormer) を提案します。したがって、低解像度の予測を参考にして高解像度の顕著性マップを生成できます。高解像度と低解像度の両方のベンチマークに関する広範な実験により、提案されたフレームワークの有効性と優位性が示されています。ソース コードとデータセットは https://github.com/DrowsyMon/RMFormer でリリースされています。
Salient Object Detection (SOD) aims to identify and segment the most conspicuous objects in an image or video. As an important pre-processing step, it has many potential applications in multimedia and vision tasks. With the advance of imaging devices, SOD with high-resolution images is of great demand, recently. However, traditional SOD methods are largely limited to low-resolution images, making them difficult to adapt to the development of High-Resolution SOD (HRSOD). Although some HRSOD methods emerge, there are no large enough datasets for training and evaluating. Besides, current HRSOD methods generally produce incomplete object regions and irregular object boundaries. To address above issues, in this work, we first propose a new HRS10K dataset, which contains 10,500 high-quality annotated images at 2K-8K resolution. As far as we know, it is the largest dataset for the HRSOD task, which will significantly help future works in training and evaluating models. Furthermore, to improve the HRSOD performance, we propose a novel Recurrent Multi-scale Transformer (RMFormer), which recurrently utilizes shared Transformers and multi-scale refinement architectures. Thus, high-resolution saliency maps can be generated with the guidance of lower-resolution predictions. Extensive experiments on both high-resolution and low-resolution benchmarks show the effectiveness and superiority of the proposed framework. The source code and dataset are released at: https://github.com/DrowsyMon/RMFormer.
updated: Mon Sep 04 2023 06:03:58 GMT+0000 (UTC)
published: Mon Aug 07 2023 17:49:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト