ソーシャルメディアの画像は、多様な視点、白熱した議論、創造性の表現を反映し、検索タスクに新たな複雑さを加えます。コンテンツベースの画像検索(CBIR)に取り組んでいる研究者は、伝統的にアルゴリズムを調整して、フィルター処理された結果をユーザーの検索意図と一致させてきました。しかし、私たちは今、未知の起源、信ity性、さらには意味の合成画像で攻撃されています。このような不確実性により、ユーザーは検索クエリの結果がどのように見えるべきかという最初の考えを持たない場合があります。たとえば、隠された人物、接合されたオブジェクト、微妙に変更されたシーンは、ユーザーがミーム画像で最初に検出することは困難ですが、その構図に大きく貢献する可能性があります。 2Dハフ空間でキーポイントを動的にクラスタリングするオブジェクトレベルの領域をモデル化することを目的とする空間検証の新しいアプローチを提案します。これは、結果に含まれる小さな寄与オブジェクトを正確に重み付けするために使用され、費用のかかるオブジェクト検出ステップを必要としません。このメソッドをScene内のオブジェクトからScene内のオブジェクト(OS2OS)スコアと呼び、CPUでの高速マトリックス操作用に最適化されています。 OS2OSは、バウンディングボックスを必要とせずに、Oxford5K、Paris 6K、およびGoogle-Landmarksデータセットで、古典的なCBIR問題の最先端の方法に匹敵します。また、NIST MFC2018データセットでの画像合成マッチングやRedditのミームスタイルの合成画像などの新しい検索タスクにも成功しています。
Images from social media can reflect diverse viewpoints, heated arguments, and expressions of creativity, adding new complexity to retrieval tasks. Researchers working onContent-Based Image Retrieval (CBIR) have traditionally tuned their algorithms to match filtered results with user search intent. However, we are now bombarded with composite images of unknown origin, authenticity, and even meaning. With such uncertainty, users may not have an initial idea of what the results of a search query should look like. For instance, hidden people, spliced objects, and subtly altered scenes can be difficult for a user to detect initially in a meme image, but may contribute significantly to its composition. We propose a new approach for spatial verification that aims at modeling object-level regions dynamically clustering keypoints in a 2D Hough space, which are then used to accurately weight small contributing objects within the results, without the need for costly object detection steps. We call this method Objects in Scene to Objects in Scene (OS2OS) score, and it is optimized for fast matrix operations on CPUs. OS2OS performs comparably to state-of-the-art methods in classic CBIR problems, on the Oxford5K, Paris 6K, and Google-Landmarks datasets, without the need for bounding boxes. It also succeeds in emerging retrieval tasks such as image composite matching in the NIST MFC2018 dataset and meme-style composite imagery fromReddit.