最近、ディープラーニングベースのモデルは、画像操作の検出で顕著なパフォーマンスを発揮しています。ただし、それらのほとんどは、手作りまたは所定の機能の普遍性が不十分です。一方、彼らは操作のローカリゼーションに焦点を合わせ、操作の分類を見落としています。これらの問題に対処するために、完全かつ正確な画像フォレンジックのために、Constrained R-CNNという名前の粗密アーキテクチャを提案します。最初に、学習可能な操作特徴抽出機能は、統一された特徴表現をデータから直接学習します。第二に、注意領域提案ネットワークは、次の操作分類と粗い位置確認のために操作領域を効果的に区別します。次に、スキップ構造は低レベル情報と高レベル情報を融合して、グローバル操作機能を改良します。最後に、粗いローカリゼーション情報はモデルをガイドして、より細かいローカルフィーチャをさらに学習し、改ざんされた領域をセグメント化します。実験結果は、我々のモデルが最先端の性能を達成することを示しています。特に、NIST16、COVERAGE、およびColumbiaデータセットでは、F1スコアが28.4%、73.2%、13.3%増加しています。
Recently, deep learning-based models have exhibited remarkable performance for image manipulation detection. However, most of them suffer from poor universality of handcrafted or predetermined features. Meanwhile, they only focus on manipulation localization and overlook manipulation classification. To address these issues, we propose a coarse-to-fine architecture named Constrained R-CNN for complete and accurate image forensics. First, the learnable manipulation feature extractor learns a unified feature representation directly from data. Second, the attention region proposal network effectively discriminates manipulated regions for the next manipulation classification and coarse localization. Then, the skip structure fuses low-level and high-level information to refine the global manipulation features. Finally, the coarse localization information guides the model to further learn the finer local features and segment out the tampered region. Experimental results show that our model achieves state-of-the-art performance. Especially, the F1 score is increased by 28.4%, 73.2%, 13.3% on the NIST16, COVERAGE, and Columbia dataset.