Transformers jsou vrcholovec všeho, co jsi se naučil/a. Připomeňme si cestu:
| Kapitola | Co jsi se naučil/a? | Jak to používá Transformer? |
|---|---|---|
| MLP Builder | Neurony, váhy, backprop | |
| ReLU | Aktivační funkce, nelinearita | |
| Autoencoder | Embedding, latentní prostor | |
| GAN | Generování nového obsahu |
Klíčový rozdíl:
Proto potřebujeme Self-Attention:
V simulátoru: Klikni na různá slova ve slovníku. Sleduj jejich ID.
Problém s ID: "Vlk" (ID=0) a "Babička" (ID=3) jsou jen čísla. Žádný vztah!
Řešení embedding:
| Aspekt | Autoencoder | Token Embedding |
|---|---|---|
| Vstup | 784 pixelů | |
| Latent | 2D souřadnice | |
| Účel | Komprese obrazu |
V datasetu přidej nová slova. Sleduj, jak se mění "Slovník" v statistikách.
Jaký je rozdíl v tréninku s malým (16 slov) vs. velkým (30+ slov) slovníkem?
Věta: "Vlk sežere Babička"
Otázka: Bez kontextu, co znamená slovo "sežere"?
Self-Attention řeší: Jak přidat kontext do každého slova?
Když síť předpovídá poslední slovo:
| Slovo | Attention Score k "sežere" | Proč? |
|---|---|---|
| Vlk | ||
| sežere |
Výsledek Attention:
Proč Multi-Head?
Attention říká: "Tato slova spolu souvisí"
MLP říká: "Na základě těchto vztahů to znamená..."
Co dělá každá vrstva?
Zkus naučit síť předpovídat různé věty. Sleduj Loss a Přesnost.
| Počet epoch | Loss | Přesnost (%) | Kvalita predikce |
|---|---|---|---|
| 0 (začátek) | |||
| 50 | |||
| 200 |
Použij příklad "Karkulka jde do ___". Sleduj pravděpodobnosti.
Které slovo má nejvyšší pravděpodobnost?
Dává to smysl vzhledem k pohádce?
Experiment: Přidej novou větu do datasetu.
| Nová věta | Co se síť naučí? | Jak to změní predikce? |
|---|---|---|
Co se stane, když přidáš:
"Vlk sežere Babička" (správná pohádka)
"Vlk zachrání Babička" (konflikt!)
Hypotéza:
Ověř a zapiš výsledek:
Otázka: Zkus větu, která NENÍ v datasetu. Umí síť předpovědět logicky?
| Nová věta (mimo dataset) | Predikce | Zobecňuje nebo memoruje? |
|---|---|---|
| Aspekt | Naše simulace | GPT-4 |
|---|---|---|
| Attention Heads | 1 (Single-Head) | |
| Počet vrstev | 1 Transformer blok | |
| Slovník | ~16 slov | |
| Parametry | ~500 | |
| Trénovací data | 20 vět (pohádka) |
Kde se Transformers používají?
| Aplikace | Model | Úkol |
|---|---|---|
| Chatboty | ChatGPT, Gemini | |
| Překlad | Google Translate | |
| Kód | GitHub Copilot | |
| Obrázky | DALL-E, Stable Diffusion |
Od perceptronu k Transformeru:
Jaký je největší "aha moment" z práce s Transformery?
Jak celá série worksheetů změnila tvé chápání AI?
Co tě nejvíc překvapilo na tom, jak Transformers fungují?