OSCAR-Net: Object-centric Scene Graph Attention for Image Attribution
画像は強力なストーリーを伝えますが、常に信頼できるとは限りません。画像を信頼できるソース(帰属)に照合することで、ユーザーはオンラインで遭遇した画像についてより多くの情報に基づいた判断を下すことができます。このようなマッチングを実行するために、堅牢な画像ハッシュアルゴリズムを提案します。私たちのハッシュは、画像によって語られるストーリーを大幅に変える可能性のある、微妙で目立つ視覚的な詳細の操作に敏感です。それでも、ハッシュは、オンライン再配布中に画像が経験する良性の変換(品質、コーデック、サイズ、形状などの変更)に対して不変です。私たちの主な貢献は、OSCAR-Net(画像アトリビューションネットワークのためのオブジェクト中心のシーングラフアテンション)です。ビジュアルドメインでのTransformersの最近の成功に触発された堅牢な画像ハッシュモデル。 OSCAR-Netは、すべてのオブジェクトの視覚的外観とそれらの空間的関係のきめ細かい変化に対応するシーングラフ表現を構築します。ネットワークは、元の画像と操作された画像のデータセットで対照的な学習を介してトレーニングされ、数百万の画像にスケーリングするコンテンツフィンガープリント用の最先端の画像ハッシュを生成します。
Images tell powerful stories but cannot always be trusted. Matching images back to trusted sources (attribution) enables users to make a more informed judgment of the images they encounter online. We propose a robust image hashing algorithm to perform such matching. Our hash is sensitive to manipulation of subtle, salient visual details that can substantially change the story told by an image. Yet the hash is invariant to benign transformations (changes in quality, codecs, sizes, shapes, etc.) experienced by images during online redistribution. Our key contribution is OSCAR-Net (Object-centric Scene Graph Attention for Image Attribution Network); a robust image hashing model inspired by recent successes of Transformers in the visual domain. OSCAR-Net constructs a scene graph representation that attends to fine-grained changes of every object's visual appearance and their spatial relationships. The network is trained via contrastive learning on a dataset of original and manipulated images yielding a state of the art image hash for content fingerprinting that scales to millions of images.
updated: Sat Aug 07 2021 23:36:20 GMT+0000 (UTC)
published: Sat Aug 07 2021 23:36:20 GMT+0000 (UTC)
