このオープン アクセス ブックは、Foundation Models の研究と応用における最新技術の包括的な概要を提供し、基本的な自然言語処理 (NLP) の概念に精通している読者を対象としています。近年、NLP のモデルをトレーニングするための革新的な新しいパラダイムが開発されました。これらのモデルは、まずテキスト ドキュメントの大規模なコレクションで事前トレーニングされ、一般的な構文知識と意味情報が取得されます。次に、特定のタスクに合わせて微調整され、多くの場合、超人的な精度で解決できます。モデルが十分に大きい場合、微調整なしで新しいタスクを解決するようプロンプトで指示できます。さらに、それらは、画像やビデオの処理からロボット制御の学習に至るまで、さまざまなメディアや問題領域に幅広く適用できます。それらは人工知能の多くのタスクを解決するための青写真を提供するため、基礎モデルと呼ばれています。基本的な NLP モデルを簡単に紹介した後、主要な事前トレーニング済み言語モデル BERT、GPT、およびシーケンスからシーケンスへのトランスフォーマーについて説明し、自己注意とコンテキスト依存の埋め込みの概念についても説明します。次に、これらのモデルを改善するためのさまざまなアプローチについて説明します。たとえば、事前トレーニング基準の拡張、入力テキストの長さの増加、追加の知識の追加などです。次に、質問応答、翻訳、ストーリー生成、対話システム、テキストからの画像の生成など、約 20 のアプリケーション分野で最も優れたモデルの概要を示します。各アプリケーション分野について、現在のモデルの長所と短所を以下に示します。について議論し、今後の展開についての見通しを示します。さらに、自由に利用できるプログラム コードへのリンクが提供されています。最後の章では、AI の経済的機会、リスクの軽減、および潜在的な開発についてまとめています。
This open access book provides a comprehensive overview of the state of the art in research and applications of Foundation Models and is intended for readers familiar with basic Natural Language Processing (NLP) concepts. Over the recent years, a revolutionary new paradigm has been developed for training models for NLP. These models are first pre-trained on large collections of text documents to acquire general syntactic knowledge and semantic information. Then, they are fine-tuned for specific tasks, which they can often solve with superhuman accuracy. When the models are large enough, they can be instructed by prompts to solve new tasks without any fine-tuning. Moreover, they can be applied to a wide range of different media and problem domains, ranging from image and video processing to robot control learning. Because they provide a blueprint for solving many tasks in artificial intelligence, they have been called Foundation Models. After a brief introduction to basic NLP models the main pre-trained language models BERT, GPT and sequence-to-sequence transformer are described, as well as the concepts of self-attention and context-sensitive embedding. Then, different approaches to improving these models are discussed, such as expanding the pre-training criteria, increasing the length of input texts, or including extra knowledge. An overview of the best-performing models for about twenty application areas is then presented, e.g., question answering, translation, story generation, dialog systems, generating images from text, etc. For each application area, the strengths and weaknesses of current models are discussed, and an outlook on further developments is given. In addition, links are provided to freely available program code. A concluding chapter summarizes the economic opportunities, mitigation of risks, and potential developments of AI.