Transformers, the tech behind LLMs | Deep Learning Chapter 5
Breaking down how Large Language Models work, visualizing how data flows through.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch, by Andrej Karpathy
https://youtu.be/kCc8FmEb1nY
If you want a conceptual understanding of language models from the ground up, @vcubingx just started a short series of videos on the topic:
https://youtu.be/1il-s4mgNdI?si=XaVxj6bsdy3VkgEX
If you're interested in the herculean task of interpreting what these large networks might actually be doing, the Transformer Circuits posts by Anthropic are great. In particular, it was only after reading one of these that I started thinking of the combination of the value and output matrices as being a combined low-rank map from the embedding space to itself, which, at least in my mind, made things much clearer than other sources.
https://transformer-circuits.pub/2021/framework/index.html
History of language models by Brit Cruise, @ArtOfTheProblem
https://youtu.be/OFS90-FX6pg
An early paper on how directions in embedding spaces have meaning:
https://arxiv.org/pdf/1301.3781.pdf
Звуковая дорожка на русском языке: Влад Бурмистров.
---
Timestamps
0:00 - Predict, sample, repeat
3:03 - Inside a transformer
6:36 - Chapter layout
7:20 - The premise of Deep Learning
12:27 - Word embeddings
18:25 - Embeddings beyond words
20:22 - Unembedding
22:22 - Softmax with temperature
26:03 - Up next
Skip Sponsors
Transcript
Portuguese
4789 words
29087 chars
24 min read
As iniciais GPT significam Transformador Generativo Pré-treinado. A primeira palavra é bastante direta, são bots que geram novo texto. Pré-treinado refere-se a como o modelo passou por um processo de aprendizagem a partir de uma enorme quantidade de dados, e o prefixo sugere que é possível ajustá-lo para tarefas específicas com treinamento adicional. Mas a última palavra é a verdadeira peça chave. Um transformador é um tipo específico de rede neural, um modelo de aprendizado de máquina, e é a principal invenção na base do atual crescimento de IA. O que quero fazer com este vídeo e com os capítulos seguintes é apresentar uma explicação baseada em gráficos sobre o que realmente acontece dentro de um transformador. Vamos seguir os dados que fluem por ele e seguir passo a passo. Existem muitos tipos diferentes de modelos que você pode construir usando transformadores. Alguns modelos captam áudio e produzem uma transcrição. Essa frase vem de um modelo que faz o contrário, produzindo fala sintética apenas a partir do texto. Todas aquelas ferramentas que conquistaram o mundo em 2022, como DALL-E e Midjourney, que captam uma descrição de texto e produzem uma imagem, são baseadas em transformadores. Mesmo que eu não consiga explicar pro modelo o que uma criatura "pi" deveria ser, ainda estou surpreso que esse tipo de coisa seja remotamente possível. E o transformador original introduzido em 2017 pelo Google foi inventado para o caso de uso específico de tradução de texto de um idioma para outro. Mas a variante na qual vamos nos concentrar, que é o tipo que dá base a ferramentas como o ChatGPT, será um modelo treinado para captar um pedaço de texto, talvez até acompanhado de algumas imagens ou sons associados, e produzir uma previsão para o que vem a seguir na passagem. Essa previsão assume a forma de uma distribuição de probabilidade sobre muitos trechos diferentes de texto que podem se seguir....
More YouTube Tools
YouTube Video Tools
Free tools for YouTube video analysis
Get Another Transcript
Extract transcripts from any YouTube video
💡 Pro Tips for YouTube Transcripts
- • Use transcripts to create study notes from educational videos
- • Extract quotes for social media or research
- • Convert video content to searchable text
- • Create subtitles for accessibility