Transformers, the tech behind LLMs | Deep Learning Chapter 5
Breaking down how Large Language Models work, visualizing how data flows through.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch, by Andrej Karpathy
https://youtu.be/kCc8FmEb1nY
If you want a conceptual understanding of language models from the ground up, @vcubingx just started a short series of videos on the topic:
https://youtu.be/1il-s4mgNdI?si=XaVxj6bsdy3VkgEX
If you're interested in the herculean task of interpreting what these large networks might actually be doing, the Transformer Circuits posts by Anthropic are great. In particular, it was only after reading one of these that I started thinking of the combination of the value and output matrices as being a combined low-rank map from the embedding space to itself, which, at least in my mind, made things much clearer than other sources.
https://transformer-circuits.pub/2021/framework/index.html
History of language models by Brit Cruise, @ArtOfTheProblem
https://youtu.be/OFS90-FX6pg
An early paper on how directions in embedding spaces have meaning:
https://arxiv.org/pdf/1301.3781.pdf
Звуковая дорожка на русском языке: Влад Бурмистров.
---
Timestamps
0:00 - Predict, sample, repeat
3:03 - Inside a transformer
6:36 - Chapter layout
7:20 - The premise of Deep Learning
12:27 - Word embeddings
18:25 - Embeddings beyond words
20:22 - Unembedding
22:22 - Softmax with temperature
26:03 - Up next
Skip Sponsors
Transcript
Chinese
688 words
9240 chars
4 min read
GPT 是 Generative Pre-trained Transformer 的缩写。 首个单词较为直接, 它们是用来生成新文本的机器人。 "Pre-trained" 指的是模型经历了从大量数据中学习的过程, 这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。 然而,最后一个词,才是真正重要的部分。 Transformer 是一种特定类型的神经网络,一个机器学习模型, 它是现今 AI 高速发展的核心创新。 我希望通过这个视频和接下来的章节, 以一种便于理解的方式, 阐述 Transformer 内部实际发生的过程。 我们将逐步探索流经它的数据。 你可以使用 Transformer 构建许多不同类型的模型。 有些模型接受音频输入并生成文字。 这句话来自一个反向工作的模型, 只需要文本输入就能生成人工语音。 所有那些在 2022 年风靡全球的工具, 如 DALL-E 和 MidJourney,能够将文本描述转化为图像, 都是基于 Transformer 的。 即使我无法让它完全理解 "π 生物"到底是什么, 我仍对这样的事情有可能发生感到惊讶。 最初的 Transformer 是 Google 在 2017 年推出的, 主要用于将一种语言的文本翻译成另一种语言。 但我们将关注的版本, 也就是像 ChatGPT 这样的工具所依赖的类型, 会是一个接受一段文本(可能伴随一些图像或声音)的模型, 然后预测文章接下来的内容。 这种预测呈现为概率分布形式 涵盖了很多可能接下来出现的文字片段。 乍一看, 你可能觉得预测下一个词 似乎与生成新的文字有着天壤之别。 但当你有了像这样的预测模型后, 你可以试着让它生成一段更长的文字, 方法就是给它一个初始的片段, 然后随机从刚生成的概率分布中选取一个样本, 将这个样本追加到文字中, 接着再进行一轮预测, 这次的预测需要基于所有新生成的文字, 包括刚刚添加的那部分。 我不知道你怎么看, 但我真的觉得这个方法的效果可能并不理想。 举个例子,在这个动画中, 我在我的笔记本电脑上运行 GPT-2, 并让它不断地预测与取样下一个文字块, 尝试基于一段起始文本生成一个故事。 结果呢,这个故事基本上没什么逻辑可言。 但是,如果我换成 GPT-3 的 API 调用, 这是同样的基本模型,只是规模更大,突然间就像变魔法一样, 我们不仅得到了一个合乎逻辑的故事, 这个故事甚至能暗示出一个 π 生物 可能居住在一个充满数学和计算的世界里。 这个过程,就是通过重复的预测和选取来生成文本, 正是你在使用ChatGPT或其他大型语言模型时所经历的,模型会逐字地生成文本。 其实, 我特别希望能有一种功能,即 能看到它在选择每个新词时的底层概率分布。 我们先从宏观角度看看 数据是如何在 Transformer 模型中流转的。 接下来,我们会详细探讨、解释每一个步骤,并对其进行扩展。 但是大体来说,当聊天机器人生成某个特定词汇时, 下面就是它底层的运行机制。 首先,输入内容会被拆分成许多小片段。 这些小片段被称为词元 (Tokens)。 对于文本来说,这些 Token 通常是单词、单词的一小部分, 或者其他常见的字符组合。 如果是图像或声音, Token 则可能代表图像的一小块区域 或声音的一段小片段。 然后,每个 Token 会对应到一个向量上, 也就是一串数字, 这串数字的目的是以某种方式来表达该片段的含义。 如果你把这些向量看作是 在一个高维空间中的坐标, 那么含义相似的词汇倾向于 彼此接近的向量上。 这些向量序列接下来 会经过一个称为“注意力块”的处理过程, 使得向量能够相互“交流” 并根据彼此信息更新自身的值。 例如, “model”这个单词 在“机器学习模型(model)”中的意思 和在“时尚模特(model)”中的意思是不同的。 注意力模块的作用 就是要确定上下文中哪些词对更新其他词的意义有关, 以及应该如何准确地更新这些含义。 每当我说到“含义”这个词时, 完全通过向量中的数字来表达。 之后,这些向量会经过另一种处理, 这个过程根据资料的不同, 可能被称作多层感知机 或者前馈层。 这个阶段,向量不再互相“交流”, 而是并行地经历同一处理。 虽然这个步骤比较难以理解, 但我们会在后面讨论, 这个步骤有点像 对每个向量提出一系列的问题, 然后根据这些问题的答案来更新向量。 这两个处理阶段的操作 本质上都是大量的矩阵乘法, 我们要学习的主要是 如何解读这些背后的矩阵。 在讲解中,我省略了一些中间步骤的归一化细节, 毕竟这只是宏观概览。 接下来,过程基本上是重复的。 你需要在注意力模块和多层感知机(MLP)模块之间不断切换, 直到最后, 我们期望通过某种方式,...
More YouTube Tools
YouTube Video Tools
Free tools for YouTube video analysis
Get Another Transcript
Extract transcripts from any YouTube video
💡 Pro Tips for YouTube Transcripts
- • Use transcripts to create study notes from educational videos
- • Extract quotes for social media or research
- • Convert video content to searchable text
- • Create subtitles for accessibility