このホワイトペーパーでは、モバイルデバイスで写真とビデオのギャラリーを処理することにより、ユーザーモデリングタスクを検証します。シーン認識、物体検出、顔分析に基づくユーザー嗜好予測のための新しいエンジンを提案します。最初に、ギャラリー内のすべての顔がクラスター化され、大きなクラスターからの顔を持つすべてのプライベート写真とビデオがオフラインモードの組み込みシステムで処理されます。他の写真は、非常に深いモデルで分析するためにリモートサーバーに送信される場合があります。各写真の視覚的特徴は、シーン認識およびオブジェクト検出モデルから取得されます。これらの機能は、神経注意ブロック内の単一のユーザー記述子に集約されます。提案されたパイプラインは、Androidモバイルプラットフォーム用に実装されています。写真イベントコレクション、イベント認識用のWeb画像データセット、およびAmazon Fashionデータセットのサブセットを使用した実験結果は、大幅な精度の低下なしに画像を非常に効率的に処理できる可能性を示しています。 Androidモバイルアプリケーションのソースコードは、https://github.com/HSE-asavchenko/mobile-visual-preferencesで公開されています。
In this paper user modeling task is examined by processing a gallery of photos and videos on a mobile device. We propose novel engine for user preference prediction based on scene recognition, object detection and facial analysis. At first, all faces in a gallery are clustered and all private photos and videos with faces from large clusters are processed on the embedded system in offline mode. Other photos may be sent to the remote server to be analyzed by very deep models. The visual features of each photo are obtained from scene recognition and object detection models. These features are aggregated into a single user descriptor in the neural attention block. The proposed pipeline is implemented for the Android mobile platform. Experimental results with a subset of Photo Event Collection, Web Image Dataset for Event Recognition and Amazon Fashion datasets demonstrate the possibility to process images very efficiently without significant accuracy degradation. The source code of Android mobile application is publicly available at https://github.com/HSE-asavchenko/mobile-visual-preferences.