外観情報だけでは、きめの細かい視覚的カテゴリを正確に区別するには不十分な場合がよくあります。人間の専門家は、最終決定を知らせるために、特定の画像がいつどこで撮影されたかなどの追加のキューを利用します。このコンテキスト情報は、多くのオンライン画像コレクションですぐに利用できますが、画像の内容に基づいて予測を行うことにのみ焦点を当てた既存の画像分類器では十分に活用されていません。地理的位置と時間を条件に、特定のオブジェクトカテゴリがその位置で発生する確率を推定する、効率的な時空間事前分布を提案します。私たちの事前知識は、プレゼンスのみの観測データから訓練され、オブジェクトのカテゴリ、それらの時空間分布、および写真家のバイアスを共同でモデル化します。複数の困難な画像分類データセットで実行された実験は、事前分類を画像分類子からの予測と組み合わせると、最終的な分類パフォーマンスが大幅に向上することを示しています。
Appearance information alone is often not sufficient to accurately differentiate between fine-grained visual categories. Human experts make use of additional cues such as where, and when, a given image was taken in order to inform their final decision. This contextual information is readily available in many online image collections but has been underutilized by existing image classifiers that focus solely on making predictions based on the image contents. We propose an efficient spatio-temporal prior, that when conditioned on a geographical location and time, estimates the probability that a given object category occurs at that location. Our prior is trained from presence-only observation data and jointly models object categories, their spatio-temporal distributions, and photographer biases. Experiments performed on multiple challenging image classification datasets show that combining our prior with the predictions from image classifiers results in a large improvement in final classification performance.