🤖 RL Agent: Q-Learning Bludiště

OpenTechLab Jablonec nad Nisou · Science Micro Elementary School

Sledujte, jak se AI učí metodou pokus-omyl. Agent zkoumá prostředí, dostává odměny a tresty, a postupně si buduje "mapu" nejlepších akcí. Žádné předem dané instrukce – jen zpětná vazba!

Rychlost učení (α) 0.5

Zvědavost (ε) 0.3

Budoucí odměna (γ) 0.9

Rychlost animace

🗺️ Herní Prostředí (GridWorld)

Scénář:

🤖 Agent

💎 Cíl (+100)

🔥 Past (-100)

🧱 Zeď

🧠 Mozek Agenta (Q-Tabulka)

Q-hodnoty ukazují, jak "dobrá" je každá akce v každém stavu. Čísla se aktualizují podle vzorce:

Q(s,a) ← Q(s,a) + α[r + γ·max(Q') - Q(s,a)]

Šipky v buňkách ukazují preferované směry. Zelená = dobrá volba, Červená = špatná volba.

Epizoda

Kroky

Úspěchů

Selhání

Historie epizod se zobrazí zde...

🔬 Detail posledního kroku

Proveďte krok pro zobrazení výpočtu...

🎓 Co je Q-Learning?

Algoritmus zpětnovazebního učení, kde agent zkoumá prostředí, dostává odměny/tresty a buduje si Q-tabulku – mapu, která říká: "V tomto stavu, tato akce je nejlepší." Nepotřebuje učitele, učí se sám z vlastních chyb!

⚖️ Exploration vs Exploitation

Zvědavost (ε) řídí rovnováhu:
• Vysoká = Agent zkouší náhodné akce (může najít lepší cesty, ale často chybuje)
• Nízká = Agent dělá jen to, co už zná (bezpečné, ale uvízne v lokálním optimu)

📊 Parametry

α (Learning Rate) = Jak rychle přepisuje staré zkušenosti
γ (Discount) = Jak moc záleží na budoucích odměnách
ε (Epsilon) = Pravděpodobnost náhodné akce

🎮 Jak používat simulátor

1️⃣ Vyberte scénář
Použijte dropdown "Scénář" pro výběr předdefinované mapy, nebo nakreslete vlastní bludiště pomocí nástrojů (Zeď, Past, Cíl, Guma).

2️⃣ Nastavte parametry
Experimentujte s α (rychlost učení), ε (zvědavost) a γ (důležitost budoucnosti). Zkuste různé kombinace!

3️⃣ Spusťte trénink
Klikněte "Spustit Trénink" nebo "Jeden krok" pro krokování. Sledujte šipky v buňkách - ukazují, co se agent naučil.

4️⃣ Analyzujte výsledky
Panel "Detail kroku" ukazuje matematiku za každým rozhodnutím. Kostka 🎲 indikuje exploration (náhodný pokus).

💡 Tip: Zkuste scénář "Útes" s různými hodnotami ε. S vysokou hodnotou agent raději obchází bezpečně, s nízkou riskuje zkratku podél pastí!