arXiv reaDer
ビジュアル質問応答における関連質問と画像属性による知識検出
Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering
ビジュアル質問応答 (VQA) は、自然言語処理とコンピューター ビジョンの実践を通じて追求された学際的な研究課題です。視覚的な質問応答は、画像の内容に従って自然言語の質問に自動的に回答します。一部のテスト問題では、解決策を導き出すために外部の知識が必要です。このような知識ベースの VQA では、さまざまな方法を使用して画像とテキストの特徴を取得し、それらを組み合わせて回答を生成します。知識ベースの回答を生成するには、質問依存または画像依存の知識検索方法が使用されます。画像内のすべてのオブジェクトに関する知識が得られた場合、すべての知識が質問に関連するとは限りません。一方で、質問に関連した知識のみが不正確な回答をもたらしたり、イメージと無関係な質問に回答する過剰にトレーニングされたモデルにつながる可能性があります。私たちが提案する方法は、画像属性と質問の特徴を知識導出モジュールの入力として受け取り、正確な回答を提供できる画像オブジェクトに関する質問に関連する知識のみを取得します。
Visual question answering (VQA) is a Multidisciplinary research problem that pursued through practices of natural language processing and computer vision. Visual question answering automatically answers natural language questions according to the content of an image. Some testing questions require external knowledge to derive a solution. Such knowledge-based VQA uses various methods to retrieve features of image and text, and combine them to generate the answer. To generate knowledgebased answers either question dependent or image dependent knowledge retrieval methods are used. If knowledge about all the objects in the image is derived, then not all knowledge is relevant to the question. On other side only question related knowledge may lead to incorrect answers and over trained model that answers question that is irrelevant to image. Our proposed method takes image attributes and question features as input for knowledge derivation module and retrieves only question relevant knowledge about image objects which can provide accurate answers.
updated: Thu Jun 08 2023 05:08:32 GMT+0000 (UTC)
published: Thu Jun 08 2023 05:08:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト