このペーパーでは、Mail.ruで正常に展開された画像のランドマーク認識のための新しいアプローチを紹介します。この方法により、ユーザーの写真で有名な場所、建物、記念碑、その他のランドマークを認識できます。主な課題は、目印となるものとそうでないものを正確に定義することが非常に複雑であるという事実にあります。一部の建物、彫像、自然物はランドマークです。他はそうではありません。また、認識モデルをトレーニングするためのかなり多数のランドマークを備えたデータベースもありません。実稼働環境でランドマーク認識を使用する主な機能は、ランドマークを含む写真の数が非常に少ないことです。これが、モデルの誤検知率が非常に低く、認識精度が高い必要がある理由です。既存の課題をうまく処理し、多数のランドマークを効率的に処理するメトリック学習ベースのアプローチを提案します。この方法は、ディープニューラルネットワークを使用し、本番環境での使用を高速化するシングルパス推論を必要とします。また、メトリック学習モデルのトレーニングに不可欠なランドマークデータベースをクリーニングするアルゴリズムについても説明します。ニューラルネットワークアーキテクチャ、学習戦略、メトリック学習アプローチの機能など、メソッドの基本的なコンポーネントの詳細な説明を提供します。ユーザーコレクションのランドマークがある場合とない場合の写真の分布をエミュレートするテストで、提案されたソリューションの結果を示します。これらのテスト中にメソッドを他のメソッドと比較します。説明されているシステムは、Mail.ru Groupの写真共有およびストレージサービスであるCloud Mail.ruの写真認識ソリューションの一部として展開されています。
This paper presents a novel approach for landmark recognition in images that we've successfully deployed at Mail.ru. This method enables us to recognize famous places, buildings, monuments, and other landmarks in user photos. The main challenge lies in the fact that it's very complicated to give a precise definition of what is and what is not a landmark. Some buildings, statues and natural objects are landmarks; others are not. There's also no database with a fairly large number of landmarks to train a recognition model. A key feature of using landmark recognition in a production environment is that the number of photos containing landmarks is extremely small. This is why the model should have a very low false positive rate as well as high recognition accuracy. We propose a metric learning-based approach that successfully deals with existing challenges and efficiently handles a large number of landmarks. Our method uses a deep neural network and requires a single pass inference that makes it fast to use in production. We also describe an algorithm for cleaning landmarks database which is essential for training a metric learning model. We provide an in-depth description of basic components of our method like neural network architecture, the learning strategy, and the features of our metric learning approach. We show the results of proposed solutions in tests that emulate the distribution of photos with and without landmarks from a user collection. We compare our method with others during these tests. The described system has been deployed as a part of a photo recognition solution at Cloud Mail.ru, which is the photo sharing and storage service at Mail.ru Group.