arXiv reaDer
視覚的手掛かりとソーシャルネットワークメタデータからの画像注釈のためのCNN-RNNフレームワーク
A CNN-RNN Framework for Image Annotation from Visual Cues and Social Network Metadata
 画像は、人々の間で一般的に使用される視覚的コミュニケーションの形態を表しています。それにもかかわらず、正しく注釈を付けるためにより多くのコンテキストを必要とする不明瞭または一般的でない画像を扱う場合、画像の分類は困難な作業になる可能性があります。ソーシャルメディアの画像に付随するメタデータは、適切な地域を取得して画像注釈タスクを容易にするための追加情報の理想的なソースです。このために、私たちは隣人から抽出された視覚的特徴とそのメタデータをブレンドして、コンテキストと視覚的合図を共同で活用します。私たちのモデルは、複数のセマンティック埋め込みを使用して、トレーニングセットとテストセットの間の語彙の変化にロバストであり、低レベルのメタデータ表現からアーキテクチャを分離するという二重の目的を達成します。畳み込みおよび再帰型ニューラルネットワーク(CNN-RNN)が共同で採用され、近傍とクエリ画像間の類似性が推測されます。 NUS-WIDEデータセットに対して包括的な実験を行い、モデルが画像とメタデータに基づく最新のアーキテクチャよりも優れていることを示し、感覚と意味の両方のギャップを減らして画像に注釈を付けます。
Images represent a commonly used form of visual communication among people. Nevertheless, image classification may be a challenging task when dealing with unclear or non-common images needing more context to be correctly annotated. Metadata accompanying images on social-media represent an ideal source of additional information for retrieving proper neighborhoods easing image annotation task. To this end, we blend visual features extracted from neighbors and their metadata to jointly leverage context and visual cues. Our models use multiple semantic embeddings to achieve the dual objective of being robust to vocabulary changes between train and test sets and decoupling the architecture from the low-level metadata representation. Convolutional and recurrent neural networks (CNNs-RNNs) are jointly adopted to infer similarity among neighbors and query images. We perform comprehensive experiments on the NUS-WIDE dataset showing that our models outperform state-of-the-art architectures based on images and metadata, and decrease both sensory and semantic gaps to better annotate images.
updated: Mon Mar 30 2020 17:19:26 GMT+0000 (UTC)
published: Sun Oct 13 2019 15:24:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト