🧠 Badatelský deník inženýra AI

Laboratoř neuronových sítí | Transformer - Attention Is All You Need
1

Od pixelů ke slovům - Nová dimenze AI

~ 45 min

1. Celá cesta od začátku

Transformers jsou vrcholovec všeho, co jsi se naučil/a. Připomeňme si cestu:

Kapitola Co jsi se naučil/a? Jak to používá Transformer?
MLP Builder Neurony, váhy, backprop
ReLU Aktivační funkce, nelinearita
Autoencoder Embedding, latentní prostor
GAN Generování nového obsahu

2. Od obrázků k jazyku

Dosud: Pixely → čísla → klasifikace (je to 0 nebo 9?)

Nyní: Slova → vektory → porozumění → generování nových vět

Klíčový rozdíl:

Proto potřebujeme Self-Attention:

2

Token Embedding - Od slov k vektorům

~ 45 min

1. Co je token a embedding?

Token: Nejmenší jednotka textu (slovo nebo část slova)
"Karkulka" = token ID 1

Embedding: Převod ID → vektor (8 čísel)
ID 1 → [0.5, -0.2, 0.8, 0.1, -0.3, 0.6, 0.4, -0.1]

V simulátoru: Klikni na různá slova ve slovníku. Sleduj jejich ID.

2. Proč vektory, ne jen ID?

Problém s ID: "Vlk" (ID=0) a "Babička" (ID=3) jsou jen čísla. Žádný vztah!

Řešení embedding:

3. Analogie s Autoencodery

Aspekt Autoencoder Token Embedding
Vstup 784 pixelů
Latent 2D souřadnice
Účel Komprese obrazu

4. Experiment: Změna slovníku

V datasetu přidej nová slova. Sleduj, jak se mění "Slovník" v statistikách.

Jaký je rozdíl v tréninku s malým (16 slov) vs. velkým (30+ slov) slovníkem?

3

Self-Attention - "Kdo se dívá na koho?"

~ 60 min

1. Problém kontextu

Věta: "Vlk sežere Babička"

Otázka: Bez kontextu, co znamená slovo "sežere"?

Self-Attention řeší: Jak přidat kontext do každého slova?

2. Mechanismus Q, K, V

Query (Q): "Co hledám?" - otázka od aktuálního slova
Key (K): "Co nabízím?" - odpověď od ostatních slov
Value (V): "Jakou informaci dávám?" - skutečný obsah

Attention Score: Podobnost Q · K (dot product)
→ Čím vyšší score, tím víc si "slova dávají pozor" na sebe

3. Příklad: "Vlk sežere ___"

Když síť předpovídá poslední slovo:

Slovo Attention Score k "sežere" Proč?
Vlk
sežere

Výsledek Attention:

4. Multi-Head vs. Single-Head

Tato simulace: Single-Head - jedna sada Q/K/V
→ Sleduje pouze jeden typ vztahu (např. syntaktický)

GPT-4: Multi-Head - tisíce sad Q/K/V
→ Paralelně sleduje gramatiku, sémantiku, sentiment, kontext...

Proč Multi-Head?

4

Feed-Forward MLP - Zpracování kontextu

~ 45 min

1. Role MLP v Transformeru

👀
Attention
Přidá kontext
🧠
MLP
Zpracuje význam

Attention říká: "Tato slova spolu souvisí"
MLP říká: "Na základě těchto vztahů to znamená..."

2. Architektura Feed-Forward

V této simulaci:
Token MLP: 16 → 8 → 4 (embedding)
Main MLP: kontext → skryté vrstvy → predikce

Co dělá každá vrstva?

3. Experimenty s tréninkem

Zkus naučit síť předpovídat různé věty. Sleduj Loss a Přesnost.

Počet epoch Loss Přesnost (%) Kvalita predikce
0 (začátek)
50
200

4. Pozorování predikce

Použij příklad "Karkulka jde do ___". Sleduj pravděpodobnosti.

Které slovo má nejvyšší pravděpodobnost?

Dává to smysl vzhledem k pohádce?

5

Dataset a sémantika

~ 45 min

1. Jak síť rozumí významu?

Dataset učí vztahy:
"Vlk sežere [Babička]" → Síť se učí: po "Vlk sežere" následuje "Babička"
"Karkulka jde do [Les]" → Po "jde do" následují místa (Les, Babička...)

Experiment: Přidej novou větu do datasetu.

Nová věta Co se síť naučí? Jak to změní predikce?

2. Konfliktní data

Co se stane, když přidáš:
"Vlk sežere Babička" (správná pohádka)
"Vlk zachrání Babička" (konflikt!)

Hypotéza:

Ověř a zapiš výsledek:

3. Generalizace vs. Memorization

Otázka: Zkus větu, která NENÍ v datasetu. Umí síť předpovědět logicky?

Nová věta (mimo dataset) Predikce Zobecňuje nebo memoruje?
6

Od Transformeru k ChatGPT

~ 30 min

1. Rozdíly: Naše simulace vs. GPT-4

Aspekt Naše simulace GPT-4
Attention Heads 1 (Single-Head)
Počet vrstev 1 Transformer blok
Slovník ~16 slov
Parametry ~500
Trénovací data 20 vět (pohádka)

2. Celý Transformer pipeline

📝
Tokenizace
Slovo → ID
🔢
Embedding
ID → Vektor
👀
Self-Attention
Kontext
🧠
Feed-Forward
Zpracování
🎯
Softmax
Predikce

3. Praktické aplikace Transformerů

Kde se Transformers používají?

Aplikace Model Úkol
Chatboty ChatGPT, Gemini
Překlad Google Translate
Kód GitHub Copilot
Obrázky DALL-E, Stable Diffusion

4. Velké finále - Celá série

Od perceptronu k Transformeru:

  1. MLP Builder:
  2. MLP Grayscale:
  3. ReLU Lab:
  4. CNN:
  5. Autoencoder:
  6. GAN:
  7. Transformer:

5. Závěrečná reflexe

Jaký je největší "aha moment" z práce s Transformery?

Jak celá série worksheetů změnila tvé chápání AI?

Co tě nejvíc překvapilo na tom, jak Transformers fungují?