カモフラージュされたオブジェクトは通常、背景に同化され、曖昧な境界を示します。複雑な環境条件と、カモフラージュされたターゲットとその周囲の本質的な類似性が高いため、これらのオブジェクト全体を正確に位置特定してセグメント化するのに大きな課題が生じます。既存の手法は、現実世界のさまざまなシナリオで顕著なパフォーマンスを実証していますが、小さなターゲット、薄い構造、不明瞭な境界などの困難なケースに直面した場合には、依然として限界に直面しています。カモフラージュされたオブジェクトを含む画像を観察するときの人間の視覚認識からインスピレーションを得て、1 回の反復で粗いセグメンテーションから細かいセグメンテーションを可能にする 3 段階のモデルを提案します。具体的には、私たちのモデルは 3 つのデコーダーを使用して、サブサンプリングされた特徴、切り取られた特徴、および高解像度の元の特徴を順番に処理します。この提案されたアプローチは、計算オーバーヘッドを削減するだけでなく、背景ノイズによって引き起こされる干渉も軽減します。さらに、マルチスケール情報の重要性を考慮して、詳細な構造的手がかりを維持しながら受容野を拡大するマルチスケール特徴強調モジュールを設計しました。さらに、境界情報を活用してパフォーマンスを向上させる境界強化モジュールが開発されました。その後、粗い予測マップを高解像度の特徴マップと統合することにより、きめの細かい結果を生成するマスクガイド型融合モジュールが提案されています。当社のネットワークは、不必要な複雑さを伴うことなく、最先端の CNN ベースのネットワークを上回っています。論文が受理されると、ソース コードは https://github.com/clelouch/BTSNet で公開されます。
Camouflaged objects are typically assimilated into their backgrounds and exhibit fuzzy boundaries. The complex environmental conditions and the high intrinsic similarity between camouflaged targets and their surroundings pose significant challenges in accurately locating and segmenting these objects in their entirety. While existing methods have demonstrated remarkable performance in various real-world scenarios, they still face limitations when confronted with difficult cases, such as small targets, thin structures, and indistinct boundaries. Drawing inspiration from human visual perception when observing images containing camouflaged objects, we propose a three-stage model that enables coarse-to-fine segmentation in a single iteration. Specifically, our model employs three decoders to sequentially process subsampled features, cropped features, and high-resolution original features. This proposed approach not only reduces computational overhead but also mitigates interference caused by background noise. Furthermore, considering the significance of multi-scale information, we have designed a multi-scale feature enhancement module that enlarges the receptive field while preserving detailed structural cues. Additionally, a boundary enhancement module has been developed to enhance performance by leveraging boundary information. Subsequently, a mask-guided fusion module is proposed to generate fine-grained results by integrating coarse prediction maps with high-resolution feature maps. Our network surpasses state-of-the-art CNN-based counterparts without unnecessary complexities. Upon acceptance of the paper, the source code will be made publicly available at https://github.com/clelouch/BTSNet.