OpenTechLab Jablonec nad Nisou · Science Micro Elementary School
Sledujte, jak se AI učí metodou pokus-omyl. Agent zkoumá prostředí, dostává odměny a tresty,
a postupně si buduje "mapu" nejlepších akcí. Žádné předem dané instrukce – jen zpětná vazba!
0.5
0.3
0.9
🗺️ Herní Prostředí (GridWorld)
🤖 Agent
💎 Cíl (+100)
🔥 Past (-100)
🧱 Zeď
🧠 Mozek Agenta (Q-Tabulka)
Q-hodnoty ukazují, jak "dobrá" je každá akce v každém stavu.
Čísla se aktualizují podle vzorce:
Algoritmus zpětnovazebního učení, kde agent zkoumá prostředí, dostává odměny/tresty
a buduje si Q-tabulku – mapu, která říká: "V tomto stavu, tato akce je nejlepší."
Nepotřebuje učitele, učí se sám z vlastních chyb!
⚖️ Exploration vs Exploitation
Zvědavost (ε) řídí rovnováhu:
• Vysoká = Agent zkouší náhodné akce (může najít lepší cesty, ale často chybuje)
• Nízká = Agent dělá jen to, co už zná (bezpečné, ale uvízne v lokálním optimu)
📊 Parametry
α (Learning Rate) = Jak rychle přepisuje staré zkušenosti γ (Discount) = Jak moc záleží na budoucích odměnách ε (Epsilon) = Pravděpodobnost náhodné akce
🎮 Jak používat simulátor
1️⃣ Vyberte scénář Použijte dropdown "Scénář" pro výběr předdefinované mapy, nebo nakreslete
vlastní bludiště pomocí nástrojů (Zeď, Past, Cíl, Guma).
2️⃣ Nastavte parametry Experimentujte s α (rychlost učení), ε (zvědavost) a γ (důležitost
budoucnosti). Zkuste různé kombinace!
3️⃣ Spusťte trénink Klikněte "Spustit Trénink" nebo "Jeden krok" pro krokování. Sledujte
šipky v buňkách - ukazují, co se agent naučil.
4️⃣ Analyzujte výsledky Panel "Detail kroku" ukazuje matematiku za každým rozhodnutím. Kostka 🎲
indikuje exploration (náhodný pokus).
💡 Tip: Zkuste scénář "Útes" s různými hodnotami ε. S vysokou hodnotou agent raději obchází
bezpečně, s nízkou riskuje zkratku podél pastí!