💬 Badatelský deník inženýra AI

Laboratoř jazykových modelů | LLM Token Lab - Jak mluví AI?
1

Jak AI "mluví"? Tajemství LLM

~ 35 min

1. Klíčový vhled

AI NEpřemýšlí – jen počítá pravděpodobnost dalšího slova!

Jazykový model (LLM) je jako velmi sofistikovaná autocomplete funkce. Dostane text a předpovídá: "Jaké slovo má nejvyšší pravděpodobnost přijít další?"
📝
Text
"Červená Karkulka šla"
🧠
LLM
Výpočet pravděpodobností
🎯
Další slovo
"do" (45%), "k" (30%)...

2. Tréninková data

V simulátoru jsou 3 předpřipravené korpusy (datové sady):

Korpus Obsah Počet slov (přibližně)
🧒 Červená Karkulka Pohádka o Karkulce
🌤️ Počasí Předpovědi počasí
🐕 Zvířata Popisy zvířat

Proč záleží na tréninkovích datech?

3. Analogie

LLM je jako člověk, který:

2

Tokenizace - Jak AI čte text

~ 30 min

1. Co je token?

Token = základní jednotka textu pro AI.

Může to být celé slovo, část slova, interpunkce, nebo speciální symbol. LLM nepracuje s písmeny ani větami – pracuje s tokeny!

2. Příklad tokenizace

"Pes štěká na pošťáka." se rozloží na tokeny:

Pes štěká na pošťáka .

3. Experiment: Tokenizuj text

Napiš různé věty do tokenizéru a zapiš výsledky:

Vstupní text Počet tokenů Zajímavé postřehy
"Ahoj!"
"Červená Karkulka šla do lesa."
"123 + 456 = 579"
Vlastní věta:

4. Token ID

Každý token má číselné ID (index ve slovníku):

"Pes" → ID: 42
"štěká" → ID: 157
"." → ID: 3

LLM interně pracuje pouze s čísly, ne s textem!

Proč je tokenizace důležitá?

3

Next-Token Prediction

~ 40 min

1. Jak LLM generuje text

1. Vezmi dosavadní text: "V lese"
2. Vypočítej pravděpodobnosti všech možných dalších slov
3. Vyber jedno slovo (různými metodami)
4. Přidej ho k textu: "V lese žila"
5. Opakuj od kroku 1...

Výsledek: "V lese žila babička, která..."

2. Experiment: Generuj text

Načti korpus "Červená Karkulka" a generuj text. Zaznamenej pravděpodobnosti:

Dosavadní text Top 3 kandidáti Vybrané slovo
"V lese"
"V lese žila"
"V lese žila babička"

3. Pravděpodobnostní distribuce

Příklad: Po textu "Vlk řekl:" model počítá:

"Kam"
40%
"Já"
25%
"To"
15%
ostatní
20%

Které slovo se vybere? Nejčastěji to s nejvyšší pravděpodobností, ale ne vždy! To závisí na temperature...

4

Temperature - Kreativita vs Předvídatelnost

~ 35 min

1. Co je Temperature?

Temperature = "kreativita" modelu.

Řídí, jak moc model riskuje méně pravděpodobná slova.
🧊
T = 0
Vždy nejpravděpodobnější
Deterministický
Bezpečný, ale nudný
🌡️
T = 0.5
Vyvážený mix
Trochu kreativity
Kvalitní výstup
🔥
T = 1.0
Vysoká náhodnost
Kreativní, ale chaotický
Může být nesmysl

2. Experiment: Srovnej temperature

Generuj 5 slov se stejným startem, ale různou temperature:

Temperature Vygenerovaný text (5 slov) Pozorování
0.0
0.5
1.0

3. Kdy použít jakou temperature?

Úloha Doporučená T Proč?
Překlad
Psaní příběhu
Kód
5

Pokročilé koncepty

~ 45 min

1. Attention - "Na co se AI dívá"

Attention = mechanismus, který říká modelu, která slova spolu souvisí.

Když AI vidí zájmeno "která", potřebuje vědět, na co se vztahuje. Attention spojuje "která" s "babička" (vysoká váha), ne s "Karkulka".

"Karkulka navštívila babičku, která bydlela v lese."

Karkulka navštívila babičku , která bydlela v lese

Experiment: Zkus Attention tab v simulátoru. Napiš větu a klikni na různá slova:

2. Beam Search - Plánování dopředu

Greedy Search: Vždy vybere nejpravděpodobnější slovo. Rychlé, ale může vést do slepé uličky.

Beam Search: Udržuje N nejlepších "cest" a vybere tu s nejvyšší celkovou pravděpodobností.

Je to jako šachista, který zvažuje několik tahů dopředu!

Experiment: Vyzkoušej Beam Search tab s různou šířkou svazku (Beam Width):

Beam Width Výsledek Komentář
2
4

3. Halucinace - Když AI vymýšlí

🤥 Halucinace: Když se AI zeptáte na něco mimo tréninková data, NEŘEKNE "nevím" – místo toho sebejistě vymýšlí nesmysly!

To je důvod, proč AI může "lhát" – nemá koncept pravdy, jen pravděpodobnost.

Experiment: V Halucinace tabu zkus otázky mimo data (např. "Co je internet?"):

Otázka Odpověď AI Je to pravda?
Co je internet?
Hlavní město USA?

Proč AI halucinuje?

6

Latentní prostor slov (Word Embeddings)

~ 30 min

1. Slova jako body v prostoru

Word Embedding: Každé slovo je reprezentováno jako vektor čísel.

Podobná slova (vlk, pes) mají podobné vektory → jsou blízko v prostoru.
Nesouvisející slova (vlk, koláče) jsou daleko od sebe.

2. Sémantické kategorie

Postavy
Zvířata
Místa
Akce
Předměty
Ostatní

3. Experiment: Prozkoumej latentní prostor

V tabu "Latentní prostor" klikni na různá slova a najdi jejich sousedy:

Slovo Nejbližší sousedé Dává to smysl?
vlk
babička
les

4. Nakresli latentní prostor

Nakresli, kde by mohla ležet slova: vlk, pes, babička, les, jíst:

7

Klíčové závěry a reflexe

~ 20 min

1. Co jsme se naučili

Koncept Tvé shrnutí
LLM
Tokenizace
Next-Token Prediction
Temperature
Halucinace

2. Praktické důsledky

Co to znamená pro používání AI:

⚠️ Vždy ověřuj fakta: AI může sebejistě halucinovat
🌡️ Používej správnou temperature: Nízká pro přesnost, vysoká pro kreativitu
📚 Tréninková data jsou limit: AI neví nic mimo ně
🎯 Kontext je důležitý: Attention funguje lépe s delším kontextem
🤔 AI nepřemýšlí: Jen počítá statistiky

3. Závěrečná reflexe

Jaký byl tvůj největší "aha moment"?

Překvapilo tě něco na halucinacích?

Jak bys vysvětlil/a ChatGPT kamarádovi?

4. Sebehodnocení

Jak dobře rozumím tomu, jak LLM fungují? (1 = vůbec, 5 = úplně)