arXiv reaDer
視覚言語学習における知識の貢献: タスクと課題に関する調査
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges
視覚言語 (VL) 学習の最近の進歩により、いくつかの印象的な実装を提供する複数のモデルと手法の開発が可能になり、現在、視覚と言語のコラボレーションを必要とするさまざまなタスクを解決できます。 VL 事前トレーニングに使用される現在のデータセットには、限られた量の視覚的および言語的知識しか含まれていないため、多くの VL モデルの一般化機能が大幅に制限されています。ナレッジ グラフ (KG) や大規模言語モデル (LLM) などの外部知識ソースは、不足している知識を埋めることで、このような一般化のギャップをカバーすることができ、その結果、ハイブリッド アーキテクチャが出現します。今回の調査では、このようなハイブリッド アプローチの恩恵を受けたタスクを分析します。さらに、既存の知識のソースとタイプを分類し、KG と LLM のジレンマと、将来のハイブリッド アプローチへの潜在的な影響に関する議論に進みます。
Recent advancements in visiolinguistic (VL) learning have allowed the development of multiple models and techniques that offer several impressive implementations, able to currently resolve a variety of tasks that require the collaboration of vision and language. Current datasets used for VL pre-training only contain a limited amount of visual and linguistic knowledge, thus significantly limiting the generalization capabilities of many VL models. External knowledge sources such as knowledge graphs (KGs) and Large Language Models (LLMs) are able to cover such generalization gaps by filling in missing knowledge, resulting in the emergence of hybrid architectures. In the current survey, we analyze tasks that have benefited from such hybrid approaches. Moreover, we categorize existing knowledge sources and types, proceeding to discussion regarding the KG vs LLM dilemma and its potential impact to future hybrid approaches.
updated: Sat Mar 04 2023 13:12:18 GMT+0000 (UTC)
published: Sat Mar 04 2023 13:12:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト