LLM Token Lab: Jak mluví AI?

Odhalte tajemství jazykových modelů jako ChatGPT. AI "nepřemýšlí" – jen počítá pravděpodobnost dalšího slova. Vyzkoušejte si sami, jak se text generuje token po tokenu.

🔬 Pokročilé koncepty

Attention ukazuje, jak moc spolu slova "souvisí". Klikněte na slovo a uvidíte, na která ostatní slova se AI nejvíce "dívá".

💡 Tip: Klikněte na "která" – uvidíte, že se vztahuje k "babičku" (vysoká pozornost), ne k "Karkulka".

Beam Search je jako šachista, který zvažuje několik tahů dopředu. Místo výběru jednoho slova AI udržuje několik "větví" a vybere nejlepší cestu.

Šířka svazku (Beam Width):

Klikněte "Start" pro spuštění Beam Search od aktuálního textu.

Halucinace nastávají, když se AI zeptáte na něco mimo tréninková data. AI neřekne "nevím" – místo toho vymýšlí nesmysly!

Zadejte otázku a sledujte, jak AI halucinuje, když nezná odpověď...

Latentní prostor je "dimenze významu", kde AI ukládá slova jako body. Podobná slova (vlk, pes) jsou blízko sebe, nesouvisející (vlk, koláče) daleko.

← Abstraktní • Konkrétní →

← Akce • Subjekt →

🏷️ Sémantické kategorie

Postavy (Karkulka, babička...)

Zvířata (vlk, pes...)

Místa (les, chaloupka...)

Akce (šla, běžel...)

Předměty (košík, dveře...)

🎮 Ovládání

📍 Vybrané slovo

Klikněte na slovo v prostoru pro zobrazení podobných slov...

💡 Jak to funguje? Každé slovo má "vektor" – souřadnice v mnoharozměrném prostoru. Zde vidíte 2D projekci. Vzdálenost = podobnost významu. Reálné modely jako GPT mají tisíce dimenzí!

🔢 Co je Token?

Token je základní jednotka, kterou AI čte. Může to být celé slovo, část slova, nebo i jen písmeno. Počítač nevidí "Ahoj" – vidí číslo jako 15339. ChatGPT má slovník ~100 000 tokenů.

🎲 Jak AI "myslí"?

AI nevymýšlí odpovědi. Počítá: "Po slově 'V lese' přijde s 65% pravděpodobností 'rostou', s 25% 'žije'..." Pak losuje. Temperature určuje, jak moc riskuje méně pravděpodobné volby.

📊 Temperature

Temp 0 = Vždy nejpravděpodobnější (nudné, opakuje se)
Temp 1 = Losuje i divoké možnosti (kreativní, ale občas nesmysly)
ChatGPT obvykle používá ~0.7

📚 Proč záleží na datech?

AI zná jen to, co viděla v tréninku. Pokud v textu není slovo "smartphone", AI ho nikdy nepoužije. Kvalita tréninku = kvalita odpovědí.

🎮 Jak používat simulátor

1️⃣ Vyberte korpus
Zvolte text, ze kterého se AI "naučí". Můžete napsat vlastní!

2️⃣ Naučte model
Klikněte "Naučit model" – AI spočítá pravděpodobnosti slov.

3️⃣ Experimentujte
Klikejte na slova nebo "Generovat" a sledujte, jak AI tvoří text.

4️⃣ Měňte teplotu
Zkuste teplotu 0 vs 1 a sledujte rozdíl v kreativitě.

💬 LLM Token Lab: Jak mluví AI?

📚 Tréninková data

🔪 Tokenizér (Rozseká text na kousky)

🎯 Generování textu (Next-Token Prediction)