arXiv reaDer
画像の目標主導のテキスト説明
Goal-driven text descriptions for images
人工知能(AGI)を実現するための大きな部分は、人間のように見たり聞いたりできるマシンを構築することです。画像分類、ビデオ分類、物体検出、ポーズ推定、音声認識などのモデルの設計に多くの作業が集中しており、近年、ディープラーニングのおかげで大きな進歩を遂げています。しかし、世界を理解するだけでは十分ではありません。 AIエージェントは、会話の仕方、特に人間とのコミュニケーションの仕方も知っている必要があります。知覚(たとえば視覚)は動物種全体でより一般的ですが、複雑な言語の使用は人間に固有であり、知性の最も重要な側面の1つです。この論文では、視覚的な入力が与えられた場合のテキスト出力の生成に焦点を当てています。第3章では、受信者がどのオブジェクトが記述されているかを推測できるように、画像内のオブジェクトのテキスト記述である参照式の生成に焦点を当てます。理解マシンを使用して、生成された参照式を直接ガイドして、より識別力を高めます。第4章では、画像キャプション生成の識別性を高める方法を紹介します。より識別力のあるキャプションモデルがより説明的なキャプションを生成することを示します。第5章では、トレーニングの目的とサンプリング方法が、モデルが多様なキャプションを生成する能力にどのように影響するかを研究します。人気のあるキャプショントレーニング戦略は、生成されるキャプションの多様性に悪影響を与えることがわかりました。第6章では、生成されるキャプションの長さを制御できるモデルを提案します。希望の長さを変更することで、キャプションのスタイルと説明性に影響を与えることができます。最後に、第7章では、情報ユーティリティに従って有益な画像タグをランク付け/生成します。提案された方法は、人間が画像の最も重要なタグであると考えるものとよりよく一致します。
A big part of achieving Artificial General Intelligence(AGI) is to build a machine that can see and listen like humans. Much work has focused on designing models for image classification, video classification, object detection, pose estimation, speech recognition, etc., and has achieved significant progress in recent years thanks to deep learning. However, understanding the world is not enough. An AI agent also needs to know how to talk, especially how to communicate with a human. While perception (vision, for example) is more common across animal species, the use of complicated language is unique to humans and is one of the most important aspects of intelligence. In this thesis, we focus on generating textual output given visual input. In Chapter 3, we focus on generating the referring expression, a text description for an object in the image so that a receiver can infer which object is being described. We use a comprehension machine to directly guide the generated referring expressions to be more discriminative. In Chapter 4, we introduce a method that encourages discriminability in image caption generation. We show that more discriminative captioning models generate more descriptive captions. In Chapter 5, we study how training objectives and sampling methods affect the models' ability to generate diverse captions. We find that a popular captioning training strategy will be detrimental to the diversity of generated captions. In Chapter 6, we propose a model that can control the length of generated captions. By changing the desired length, one can influence the style and descriptiveness of the captions. Finally, in Chapter 7, we rank/generate informative image tags according to their information utility. The proposed method better matches what humans think are the most important tags for the images.
updated: Sat Aug 28 2021 05:10:38 GMT+0000 (UTC)
published: Sat Aug 28 2021 05:10:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト