Badatelský deník inženýra AI

1

Jak AI "mluví"? Tajemství LLM

~ 35 min

1. Klíčový vhled

                AI NEpřemýšlí – jen počítá pravděpodobnost dalšího slova!

                Jazykový model (LLM) je jako velmi sofistikovaná autocomplete funkce.

                Dostane text a předpovídá: "Jaké slovo má nejvyšší pravděpodobnost přijít další?"

📝

Text

"Červená Karkulka šla"

→

🧠

LLM

Výpočet pravděpodobností

→

🎯

Další slovo

"do" (45%), "k" (30%)...

2. Tréninková data

V simulátoru jsou 3 předpřipravené korpusy (datové sady):

Korpus	Obsah	Počet slov (přibližně)
🧒 Červená Karkulka	Pohádka o Karkulce
🌤️ Počasí	Předpovědi počasí
🐕 Zvířata	Popisy zvířat

Proč záleží na tréninkovích datech?

3. Analogie

LLM je jako člověk, který:

Četl miliony knih a pamatuje si vzory

Umí předpovědět, co "typicky" následuje

Nerozumí skutečnému významu slov

Může sebejistě říkat nesmysly

2

Tokenizace - Jak AI čte text

~ 30 min

1. Co je token?

                Token = základní jednotka textu pro AI.

                Může to být celé slovo, část slova, interpunkce, nebo speciální symbol.

                LLM nepracuje s písmeny ani větami – pracuje s tokeny!

2. Příklad tokenizace

"Pes štěká na pošťáka." se rozloží na tokeny:

Pes štěká na pošťáka .

3. Experiment: Tokenizuj text

Napiš různé věty do tokenizéru a zapiš výsledky:

Vstupní text	Počet tokenů	Zajímavé postřehy
"Ahoj!"
"Červená Karkulka šla do lesa."
"123 + 456 = 579"
Vlastní věta:

4. Token ID

Každý token má číselné ID (index ve slovníku):

"Pes" → ID: 42
"štěká" → ID: 157
"." → ID: 3

LLM interně pracuje pouze s čísly, ne s textem!

Proč je tokenizace důležitá?

3

Next-Token Prediction

~ 40 min

1. Jak LLM generuje text

1. Vezmi dosavadní text: "V lese"
2. Vypočítej pravděpodobnosti všech možných dalších slov
3. Vyber jedno slovo (různými metodami)
4. Přidej ho k textu: "V lese žila"
5. Opakuj od kroku 1...

Výsledek: "V lese žila babička, která..."

2. Experiment: Generuj text

Načti korpus "Červená Karkulka" a generuj text. Zaznamenej pravděpodobnosti:

Dosavadní text	Top 3 kandidáti	Vybrané slovo
"V lese"
"V lese žila"
"V lese žila babička"

3. Pravděpodobnostní distribuce

Příklad: Po textu "Vlk řekl:" model počítá:

"Kam"

40%

"Já"

25%

"To"

15%

ostatní

20%

Které slovo se vybere? Nejčastěji to s nejvyšší pravděpodobností, ale ne vždy! To závisí na temperature...

4

Temperature - Kreativita vs Předvídatelnost

~ 35 min

1. Co je Temperature?

                Temperature = "kreativita" modelu.

                Řídí, jak moc model riskuje méně pravděpodobná slova.

🧊

T = 0

Vždy nejpravděpodobnější
Deterministický
Bezpečný, ale nudný

🌡️

T = 0.5

Vyvážený mix
Trochu kreativity
Kvalitní výstup

🔥

T = 1.0

Vysoká náhodnost
Kreativní, ale chaotický
Může být nesmysl

2. Experiment: Srovnej temperature

Generuj 5 slov se stejným startem, ale různou temperature:

Temperature	Vygenerovaný text (5 slov)	Pozorování
0.0
0.5
1.0

3. Kdy použít jakou temperature?

Úloha	Doporučená T	Proč?
Překlad
Psaní příběhu
Kód

5

Pokročilé koncepty

~ 45 min

1. Attention - "Na co se AI dívá"

                Attention = mechanismus, který říká modelu, která slova spolu souvisí.

                Když AI vidí zájmeno "která", potřebuje vědět, na co se vztahuje.

                Attention spojuje "která" s "babička" (vysoká váha), ne s "Karkulka".

"Karkulka navštívila babičku, která bydlela v lese."

Karkulka navštívila babičku , která bydlela v lese

Experiment: Zkus Attention tab v simulátoru. Napiš větu a klikni na různá slova:

2. Beam Search - Plánování dopředu

Greedy Search: Vždy vybere nejpravděpodobnější slovo. Rychlé, ale může vést do slepé uličky.

Beam Search: Udržuje N nejlepších "cest" a vybere tu s nejvyšší celkovou pravděpodobností.

Je to jako šachista, který zvažuje několik tahů dopředu!

Experiment: Vyzkoušej Beam Search tab s různou šířkou svazku (Beam Width):

Beam Width	Výsledek	Komentář
2
4

3. Halucinace - Když AI vymýšlí

🤥 Halucinace: Když se AI zeptáte na něco mimo tréninková data, NEŘEKNE "nevím" – místo toho sebejistě vymýšlí nesmysly!

To je důvod, proč AI může "lhát" – nemá koncept pravdy, jen pravděpodobnost.

Experiment: V Halucinace tabu zkus otázky mimo data (např. "Co je internet?"):

Otázka	Odpověď AI	Je to pravda?
Co je internet?
Hlavní město USA?

Proč AI halucinuje?

6

Latentní prostor slov (Word Embeddings)

~ 30 min

1. Slova jako body v prostoru

                Word Embedding: Každé slovo je reprezentováno jako vektor čísel.

                Podobná slova (vlk, pes) mají podobné vektory → jsou blízko v prostoru.

                Nesouvisející slova (vlk, koláče) jsou daleko od sebe.

2. Sémantické kategorie

Postavy

Zvířata

Místa

Akce

Předměty

Ostatní

3. Experiment: Prozkoumej latentní prostor

V tabu "Latentní prostor" klikni na různá slova a najdi jejich sousedy:

Slovo	Nejbližší sousedé	Dává to smysl?
vlk
babička
les

4. Nakresli latentní prostor

Nakresli, kde by mohla ležet slova: vlk, pes, babička, les, jíst:

7

Klíčové závěry a reflexe

~ 20 min

1. Co jsme se naučili

Koncept	Tvé shrnutí
LLM
Tokenizace
Next-Token Prediction
Temperature
Halucinace

2. Praktické důsledky

Co to znamená pro používání AI:

⚠️ Vždy ověřuj fakta: AI může sebejistě halucinovat
🌡️ Používej správnou temperature: Nízká pro přesnost, vysoká pro kreativitu
📚 Tréninková data jsou limit: AI neví nic mimo ně
🎯 Kontext je důležitý: Attention funguje lépe s delším kontextem
🤔 AI nepřemýšlí: Jen počítá statistiky

3. Závěrečná reflexe

Jaký byl tvůj největší "aha moment"?

Překvapilo tě něco na halucinacích?

Jak bys vysvětlil/a ChatGPT kamarádovi?

4. Sebehodnocení

Jak dobře rozumím tomu, jak LLM fungují? (1 = vůbec, 5 = úplně)

1 - Potřebuji více procvičování

2 - Rozumím základům, ale mám mezery

3 - Rozumím většině, ještě ladím detaily

4 - Rozumím dobře, dokážu vysvětlit temperature a halucinace

5 - Rozumím úplně, dokážu kriticky hodnotit výstupy AI