人間の脳が非常に焦点を絞った主題を記述するときにどのように多くの神経経路を採用するかに触発されて、画像キャプションの主な視覚言語タスクに使用される深く注意深いモデルを拡張して、より良いパフォーマンスを達成できることを示します。画像のキャプションは、コンピュータービジョンと自然言語処理の間のギャップを埋めます。自動画像キャプションは、目に見えない画像の説明的なキャプションを作成するための人間のエージェントの必要性を排除するためのツールとして使用されます。自動画像キャプションは挑戦的でありながら興味深いものです。その理由の1つは、入力画像を説明する文を生成できるAIベースのシステムは、ウェブ上で見つかった、またはソーシャルメディアにアップロードされた目に見えない画像のキャプションを生成するだけでなく、さまざまなタスクで使用できるためです。たとえば、生物学や医学では、これらのシステムは研究者や医師に関連する画像の簡単な言語記述を提供し、潜在的に彼らの仕事を促進する可能性があります。
Inspired by how the human brain employs a higher number of neural pathways when describing a highly focused subject, we show that deep attentive models used for the main vision-language task of image captioning, could be extended to achieve better performance. Image captioning bridges a gap between computer vision and natural language processing. Automated image captioning is used as a tool to eliminate the need for human agent for creating descriptive captions for unseen images.Automated image captioning is challenging and yet interesting. One reason is that AI based systems capable of generating sentences that describe an input image could be used in a wide variety of tasks beyond generating captions for unseen images found on web or uploaded to social media. For example, in biology and medical sciences, these systems could provide researchers and physicians with a brief linguistic description of relevant images, potentially expediting their work.