Badatelský deník inženýra AI

1

Od pixelů ke slovům - Nová dimenze AI

~ 45 min

1. Celá cesta od začátku

Transformers jsou vrcholovec všeho, co jsi se naučil/a. Připomeňme si cestu:

Kapitola	Co jsi se naučil/a?	Jak to používá Transformer?
MLP Builder	Neurony, váhy, backprop
ReLU	Aktivační funkce, nelinearita
Autoencoder	Embedding, latentní prostor
GAN	Generování nového obsahu

2. Od obrázků k jazyku

                Dosud: Pixely → čísla → klasifikace (je to 0 nebo 9?)

                Nyní: Slova → vektory → porozumění → generování nových vět

Klíčový rozdíl:

Pixely jsou nezávislé - pixel (2,2) nemá vztah k pixel (3,3)
Slova jsou provázaná - "Vlk" souvisí s "Babička" v kontextu pohádky!

Proto potřebujeme Self-Attention:

2

Token Embedding - Od slov k vektorům

~ 45 min

1. Co je token a embedding?

Token: Nejmenší jednotka textu (slovo nebo část slova)
"Karkulka" = token ID 1

Embedding: Převod ID → vektor (8 čísel)
ID 1 → [0.5, -0.2, 0.8, 0.1, -0.3, 0.6, 0.4, -0.1]

V simulátoru: Klikni na různá slova ve slovníku. Sleduj jejich ID.

2. Proč vektory, ne jen ID?

Problém s ID: "Vlk" (ID=0) a "Babička" (ID=3) jsou jen čísla. Žádný vztah!

Řešení embedding:

Podobná slova mají podobné vektory

"Babička" a "Babča" leží v prostoru blízko

Síť se učí význam automaticky!

3. Analogie s Autoencodery

Aspekt	Autoencoder	Token Embedding
Vstup	784 pixelů
Latent	2D souřadnice
Účel	Komprese obrazu

4. Experiment: Změna slovníku

V datasetu přidej nová slova. Sleduj, jak se mění "Slovník" v statistikách.

Jaký je rozdíl v tréninku s malým (16 slov) vs. velkým (30+ slov) slovníkem?

3

Self-Attention - "Kdo se dívá na koho?"

~ 60 min

1. Problém kontextu

Věta: "Vlk sežere Babička"

Otázka: Bez kontextu, co znamená slovo "sežere"?

Obecně "jíst něco"

V kontextu pohádky: "vlk útočí na babičku"

Self-Attention řeší: Jak přidat kontext do každého slova?

2. Mechanismus Q, K, V

Query (Q): "Co hledám?" - otázka od aktuálního slova
Key (K): "Co nabízím?" - odpověď od ostatních slov
Value (V): "Jakou informaci dávám?" - skutečný obsah

Attention Score: Podobnost Q · K (dot product)
→ Čím vyšší score, tím víc si "slova dávají pozor" na sebe

3. Příklad: "Vlk sežere ___"

Když síť předpovídá poslední slovo:

Slovo	Attention Score k "sežere"	Proč?
Vlk
sežere

Výsledek Attention:

4. Multi-Head vs. Single-Head

                Tato simulace: Single-Head - jedna sada Q/K/V

                → Sleduje pouze jeden typ vztahu (např. syntaktický)

                GPT-4: Multi-Head - tisíce sad Q/K/V

                → Paralelně sleduje gramatiku, sémantiku, sentiment, kontext...

Proč Multi-Head?

Jedna hlava sleduje podmět-přísudek

Jiná hlava sleduje synonyma

Další hlava sleduje vzdálené závislosti

4

Feed-Forward MLP - Zpracování kontextu

~ 45 min

1. Role MLP v Transformeru

👀

Attention

Přidá kontext

→

🧠

MLP

Zpracuje význam

Attention říká: "Tato slova spolu souvisí"
MLP říká: "Na základě těchto vztahů to znamená..."

2. Architektura Feed-Forward

V této simulaci:
Token MLP: 16 → 8 → 4 (embedding)
Main MLP: kontext → skryté vrstvy → predikce

Co dělá každá vrstva?

3. Experimenty s tréninkem

Zkus naučit síť předpovídat různé věty. Sleduj Loss a Přesnost.

Počet epoch	Loss	Přesnost (%)	Kvalita predikce
0 (začátek)
50
200

4. Pozorování predikce

Použij příklad "Karkulka jde do ___". Sleduj pravděpodobnosti.

Které slovo má nejvyšší pravděpodobnost?

Dává to smysl vzhledem k pohádce?

5

Dataset a sémantika

~ 45 min

1. Jak síť rozumí významu?

                Dataset učí vztahy:

                "Vlk sežere [Babička]" → Síť se učí: po "Vlk sežere" následuje "Babička"

                "Karkulka jde do [Les]" → Po "jde do" následují místa (Les, Babička...)

Experiment: Přidej novou větu do datasetu.

Nová věta	Co se síť naučí?	Jak to změní predikce?

2. Konfliktní data

Co se stane, když přidáš:
"Vlk sežere Babička" (správná pohádka)
"Vlk zachrání Babička" (konflikt!)

Hypotéza:

Síť bude zmatená, predikce 50/50

Vyhraje častější vzor (více příkladů)

Síť se nenaučí nic

Ověř a zapiš výsledek:

3. Generalizace vs. Memorization

Otázka: Zkus větu, která NENÍ v datasetu. Umí síť předpovědět logicky?

Nová věta (mimo dataset)	Predikce	Zobecňuje nebo memoruje?

6

Od Transformeru k ChatGPT

~ 30 min

1. Rozdíly: Naše simulace vs. GPT-4

Aspekt	Naše simulace	GPT-4
Attention Heads	1 (Single-Head)
Počet vrstev	1 Transformer blok
Slovník	~16 slov
Parametry	~500
Trénovací data	20 vět (pohádka)

2. Celý Transformer pipeline

📝

Tokenizace

Slovo → ID

→

🔢

Embedding

ID → Vektor

→

👀

Self-Attention

Kontext

→

🧠

Feed-Forward

Zpracování

→

🎯

Softmax

Predikce

3. Praktické aplikace Transformerů

Kde se Transformers používají?

Aplikace	Model	Úkol
Chatboty	ChatGPT, Gemini
Překlad	Google Translate
Kód	GitHub Copilot
Obrázky	DALL-E, Stable Diffusion

4. Velké finále - Celá série

Od perceptronu k Transformeru:

MLP Builder:
MLP Grayscale:
ReLU Lab:
CNN:
Autoencoder:
GAN:
Transformer:

5. Závěrečná reflexe

Jaký je největší "aha moment" z práce s Transformery?

Jak celá série worksheetů změnila tvé chápání AI?

Co tě nejvíc překvapilo na tom, jak Transformers fungují?