arXiv reaDer
制約のある画像スプライシングの検出と位置特定のためのマルチスケールのターゲット認識フレームワーク
Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization
制約付きイメージ スプライシングの検出と位置特定 (CISDL) は、マルチメディア フォレンジックの基本的なタスクであり、2 つの疑わしいイメージ間のスプライシング操作を検出し、両方のイメージ上のスプライスされた領域の位置を特定します。最近の研究では、これを深層マッチング問題とみなして、大幅な進歩を遂げています。ただし、既存のフレームワークは通常、特徴抽出と相関マッチングを別個のプロセスとして実行するため、マッチングのための識別特徴を学習するモデルの機能が妨げられる可能性があり、曖昧な背景ピクセルからの干渉を受けやすい可能性があります。この研究では、統合パイプラインで特徴抽出と相関マッチングを結合するマルチスケールのターゲット認識フレームワークを提案します。以前の方法とは対照的に、特徴を共同学習し、プローブ画像とドナー画像の間の相関マッチングを実行するターゲット認識アテンションメカニズムを設計します。私たちのアプローチは、関連するパッチの共同学習を効果的に促進し、特徴学習と相関マッチングの相互促進を実行できます。さらに、スケール変換を処理するために、マルチスケール投影法を導入します。これは、ターゲット認識フレームワークに容易に統合でき、さまざまなスケールの情報を含むトークン間でアテンション プロセスを実行できるようになります。私たちの実験は、統合されたパイプラインを使用する私たちのモデルが、いくつかのベンチマーク データセットで最先端の手法を上回り、スケール変換に対して堅牢であることを示しています。
Constrained image splicing detection and localization (CISDL) is a fundamental task of multimedia forensics, which detects splicing operation between two suspected images and localizes the spliced region on both images. Recent works regard it as a deep matching problem and have made significant progress. However, existing frameworks typically perform feature extraction and correlation matching as separate processes, which may hinder the model's ability to learn discriminative features for matching and can be susceptible to interference from ambiguous background pixels. In this work, we propose a multi-scale target-aware framework to couple feature extraction and correlation matching in a unified pipeline. In contrast to previous methods, we design a target-aware attention mechanism that jointly learns features and performs correlation matching between the probe and donor images. Our approach can effectively promote the collaborative learning of related patches, and perform mutual promotion of feature learning and correlation matching. Additionally, in order to handle scale transformations, we introduce a multi-scale projection method, which can be readily integrated into our target-aware framework that enables the attention process to be conducted between tokens containing information of varying scales. Our experiments demonstrate that our model, which uses a unified pipeline, outperforms state-of-the-art methods on several benchmark datasets and is robust against scale transformations.
updated: Mon Aug 21 2023 11:58:14 GMT+0000 (UTC)
published: Fri Aug 18 2023 07:38:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト