Tag-based Semantic Features for Scene Image Classification
  既存の画像特徴抽出方法は、主に画像のコンテンツおよび構造情報に基づいており、コンテキストの意味情報を考慮することはめったにありません。シーンやオブジェクトなどのいくつかのタイプの画像に関して、ウェブ上で利用可能なそれらの注釈と説明は、特徴抽出のための信頼できる文脈上の意味情報を提供するかもしれません。このペーパーでは、Webで利用可能な類似画像の注釈と説明に基づいて、画像の新しいセマンティック機能を紹介します。具体的には、セマンティック特徴を抽出するための2つの連続したステップで構成される新しい方法を提案します。トレーニングセットの各画像について、最初にインターネットから最も類似した上位$ k $の画像を検索し、それらの注釈/説明(タグやキーワードなど)を抽出します。注釈情報を使用して、各画像カテゴリのフィルターバンクを設計し、フィルターワード(コードブック)を生成します。最後に、各画像は、すべてのカテゴリのフィルターワードの出現のヒストグラムで表されます。よく使用される3つのシーン画像データセット(つまり、MIT-67、Scene15、およびEvent8)のシーン画像分類で提案された機能のパフォーマンスを評価します。通常、この方法では、既存の特徴抽出方法よりも低い特徴次元が生成されます。実験結果は、提案された機能が視覚ベースおよびタグベースの機能よりも優れた分類精度を生成し、ディープラーニングベースの機能と同等の結果を生成することを示しています。
The existing image feature extraction methods are primarily based on the content and structure information of images, and rarely consider the contextual semantic information. Regarding some types of images such as scenes and objects, the annotations and descriptions of them available on the web may provide reliable contextual semantic information for feature extraction. In this paper, we introduce novel semantic features of an image based on the annotations and descriptions of its similar images available on the web. Specifically, we propose a new method which consists of two consecutive steps to extract our semantic features. For each image in the training set, we initially search the top $k$ most similar images from the internet and extract their annotations/descriptions (e.g., tags or keywords). The annotation information is employed to design a filter bank for each image category and generate filter words (codebook). Finally, each image is represented by the histogram of the occurrences of filter words in all categories. We evaluate the performance of the proposed features in scene image classification on three commonly-used scene image datasets (i.e., MIT-67, Scene15 and Event8). Our method typically produces a lower feature dimension than existing feature extraction methods. Experimental results show that the proposed features generate better classification accuracies than vision based and tag based features, and comparable results to deep learning based features.
