| Typ | Jak se učí | Příklad |
|---|---|---|
| Supervised Learning | Z příkladů s odpověďmi | Rozpoznání fotografií |
| Unsupervised Learning | Hledá vzory bez odpovědí | Shlukování zákazníků |
| Reinforcement Learning | Pokus-omyl s odměnami | Hry, robotika, autopilot |
Proč má každý krok malý trest (-1)?
Připodobn RL k učení psa:
| Agent | |
| Prostředí | |
| Akce | |
| Pozitivní odměna | |
| Negativní odměna |
(Stav, Akce) → HodnotaV každé buňce vidíš 4 šipky (▲▼◀▶). Co znamenají jejich barvy?
| Zelená šipka | |
| Červená šipka | |
| Šedá šipka | |
| Větší šipka |
Spusť trénink na výchozím scénáři. Zaznamenej, jak se šipky mění:
| Epizoda | Co pozoruješ na šipkách? |
|---|---|
| 1-5 | |
| 10-20 | |
| 50+ |
Resetuj vše a trénuj 50 epizod s různými hodnotami α:
| α | Úspěšnost po 50 epizodách | Pozorování |
|---|---|---|
| 0.1 (nízká) | ||
| 0.5 (střední) | ||
| 1.0 (vysoká) |
Co se stane, když γ = 0? Agent přemýšlí jen o okamžité odměně!
| γ | Chování agenta |
|---|---|
| 0.0 | |
| 0.5 | |
| 0.9 |
V simulátoru uvidíš 🎲, když agent provede exploration (náhodnou akci).
| ε | Kolik 🎲 vidíš? | Efekt na učení |
|---|---|---|
| 0.0 | ||
| 0.3 | ||
| 1.0 |
Agent je na pozici [2,3], jde doprava, dostane -1 (krok), nový stav má max Q' = 50.
V simulátoru dole je panel s matematickým výpočtem. Proveď pár kroků a zapiš:
| Krok | Stav | Akce | Odměna | Nová Q-hodnota |
|---|---|---|---|---|
| 1 | ||||
| 2 | ||||
| 3 |
Vyzkoušej různé scénáře a zaznamenej, kolik epizod je potřeba k úspěchu:
| Scénář | Epizod do 90% úspěšnosti | Hlavní výzva |
|---|---|---|
| Prázdná místnost | ||
| Výchozí | ||
| Útes (Cliff) | ||
| Bludiště | ||
| Spirála |
| ε | Preferovaná cesta | Průměr kroků do cíle |
|---|---|---|
| 0.1 | ||
| 0.5 |
Nakresli vlastní bludiště a natrénuj agenta:
| Velikost bludiště: | |
| Počet zdí: | |
| Počet pastí: | |
| Epizod k naučení: | |
| Nejlepší parametry: |
Nakresli schéma tvého bludiště s šipkami ukazujícími naučenou cestu:
Použij tlačítko "Rychlý trénink" a porovnej výsledky:
| Scénář | Úspěšnost | Selhání | Úspěšnost (%) |
|---|---|---|---|
| Výchozí | |||
| Útes | |||
| Spirála |
Zmáčkni tlačítko "Zobrazit Q-hodnoty". Místo šipek nyní vidíš čísla.
Co znamenají tato čísla?
| Koncept | Tvé shrnutí |
|---|---|
| Reinforcement Learning | |
| Q-tabulka | |
| Exploration vs Exploitation | |
| Bellmanova rovnice | |
| Parametry (α, ε, γ) |
Jaký byl tvůj největší "aha moment"?
Co tě překvapilo na chování agenta?
Jak bys vysvětlil/a RL kamarádovi?
Jak dobře rozumím Q-Learningu? (1 = vůbec, 5 = úplně)