arXiv reaDer
ゼロショットおよびフューショットの視覚的な質問に答えるためのプロンプト技術の調査
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering
視覚的質問応答 (VQA) は、視覚的な情報を理解し、推論する能力を必要とするやりがいのあるタスクです。最近の視覚言語モデルは進歩を遂げていますが、ゼロショット VQA、特に複雑な構成的質問の処理と新しい領域、つまり知識ベースの推論への適応に引き続き苦戦しています。このペーパーでは、ゼロショット VQA のパフォーマンスを向上させるための、BLIP2 モデルに焦点を当てたさまざまなプロンプト戦略の使用について検討します。私たちは、複数の VQA データセットにわたる包括的な調査を実施し、さまざまな質問テンプレートの有効性、少数ショットの例の役割、思考連鎖 (CoT) 推論の影響、追加の視覚的手がかりとして画像キャプションを組み込む利点を検証します。 。結果はさまざまですが、私たちの調査結果は、慎重に設計された質問テンプレートと、画像キャプションなどの追加の視覚的手がかりの統合が、特にショット数の少ないサンプルと組み合わせて使用​​した場合、VQA のパフォーマンスの向上に貢献できることを示しています。ただし、思考連鎖の合理化の使用には限界があり、VQA の精度に悪影響を与えることもわかりました。したがって、私たちの研究は、ゼロショット VQA のパフォーマンス向上を促す可能性についての重要な洞察を提供します。
Visual question answering (VQA) is a challenging task that requires the ability to comprehend and reason with visual information. While recent vision-language models have made strides, they continue to struggle with zero-shot VQA, particularly in handling complex compositional questions and adapting to new domains i.e. knowledge-based reasoning. This paper explores the use of various prompting strategies, focusing on the BLIP2 model, to enhance zero-shot VQA performance. We conduct a comprehensive investigation across several VQA datasets, examining the effectiveness of different question templates, the role of few-shot exemplars, the impact of chain-of-thought (CoT) reasoning, and the benefits of incorporating image captions as additional visual cues. Despite the varied outcomes, our findings demonstrate that carefully designed question templates and the integration of additional visual cues, like image captions, can contribute to improved VQA performance, especially when used in conjunction with few-shot examples. However, we also identify a limitation in the use of chain-of-thought rationalization, which negatively affects VQA accuracy. Our study thus provides critical insights into the potential of prompting for improving zero-shot VQA performance.
updated: Fri Jun 16 2023 17:47:57 GMT+0000 (UTC)
published: Fri Jun 16 2023 17:47:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト