arXiv reaDer
言語特性のためのマルチモーダル埋め込みのプロービング:視覚的意味論的事例
Probing Multimodal Embeddings for Linguistic Properties: the Visual-Semantic Case
セマンティック埋め込みは、無数の自然言語処理タスクの最先端技術を進歩させ、視覚セマンティック埋め込みなどのマルチモーダルドメインへのさまざまな拡張が提案されています。視覚的意味の埋め込みの力は、機械学習による情報の蒸留と強化に由来しますが、その内部の仕組みは十分に理解されておらず、分析ツールが不足しています。この問題に対処するために、プロービングタスクの概念を視覚的意味論的ケースに一般化します。この目的のために、(i)画像とキャプションのペアを埋め込むためのプロービングタスクの形式化について説明し、(ii)一般的なフレームワーク内で3つの具体的なプロービングタスクを定義し、(iii)それらのプロパティをプロービングするように分類器をトレーニングします。提案されたプロービングタスクのレンズの下で、さまざまな最先端の埋め込みを比較します。私たちの実験では、対応する単峰性の埋め込みと比較して、視覚的意味の埋め込みの精度が最大12%向上することが明らかになりました。これは、前者で表されるテキストと画像の寸法が互いに補完し合うことを示唆しています。
Semantic embeddings have advanced the state of the art for countless natural language processing tasks, and various extensions to multimodal domains, such as visual-semantic embeddings, have been proposed. While the power of visual-semantic embeddings comes from the distillation and enrichment of information through machine learning, their inner workings are poorly understood and there is a shortage of analysis tools. To address this problem, we generalize the notion of probing tasks to the visual-semantic case. To this end, we (i) discuss the formalization of probing tasks for embeddings of image-caption pairs, (ii) define three concrete probing tasks within our general framework, (iii) train classifiers to probe for those properties, and (iv) compare various state-of-the-art embeddings under the lens of the proposed probing tasks. Our experiments reveal an up to 12% increase in accuracy on visual-semantic embeddings compared to the corresponding unimodal embeddings, which suggest that the text and image dimensions represented in the former do complement each other.
updated: Mon Feb 22 2021 15:47:04 GMT+0000 (UTC)
published: Mon Feb 22 2021 15:47:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト