🤖 Badatelský deník inženýra AI

Laboratoř zpětnovazebního učení | RL Maze - Q-Learning v bludišti
1

Co je Reinforcement Learning?

~ 35 min

1. Tři typy strojového učení

Typ Jak se učí Příklad
Supervised Learning Z příkladů s odpověďmi Rozpoznání fotografií
Unsupervised Learning Hledá vzory bez odpovědí Shlukování zákazníků
Reinforcement Learning Pokus-omyl s odměnami Hry, robotika, autopilot

2. Klíčové koncepty RL

Agent = umělá inteligence, která se učí
Prostředí = svět, ve kterém agent jedná
Stav = pozice/situace agenta
Akce = pohyb/rozhodnutí agenta
Odměna = zpětná vazba (+ nebo -)

3. Odměny v simulátoru

💎
+100
Cíl
🔥
-100
Past
👣
-1
Každý krok
🧱
0
Zeď (nelze)

Proč má každý krok malý trest (-1)?

4. Analogie z reálného života

Připodobn RL k učení psa:

Agent
Prostředí
Akce
Pozitivní odměna
Negativní odměna
2

Q-Learning a Q-tabulka

~ 40 min

1. Co je Q-Learning?

Q-Learning = algoritmus, kde agent buduje "mapu" nejlepších akcí.

Q-hodnota = očekávaná celková odměna, pokud v daném stavu provedu danou akci.
Vysoká Q = dobrá akce, Nízká/záporná Q = špatná akce.

2. Struktura Q-tabulky

Q-tabulka mapuje: (Stav, Akce) → Hodnota

Například pro pozici [3,2]:
- Q([3,2], nahoru) =
- Q([3,2], dolů) =
- Q([3,2], vlevo) =
- Q([3,2], vpravo) =

3. Čtení šipek v simulátoru

V každé buňce vidíš 4 šipky (▲▼◀▶). Co znamenají jejich barvy?

Zelená šipka
Červená šipka
Šedá šipka
Větší šipka

4. Experiment: Sleduj učení

Spusť trénink na výchozím scénáři. Zaznamenej, jak se šipky mění:

Epizoda Co pozoruješ na šipkách?
1-5
10-20
50+
3

Parametry Q-Learningu

~ 45 min

1. Tři klíčové parametry

α
Learning Rate
Jak rychle přepisuje staré zkušenosti
ε
Epsilon (Zvědavost)
Pravděpodobnost náhodné akce
γ
Discount Factor
Jak moc záleží na budoucnosti

2. Experiment: Learning Rate (α)

Resetuj vše a trénuj 50 epizod s různými hodnotami α:

α Úspěšnost po 50 epizodách Pozorování
0.1 (nízká)
0.5 (střední)
1.0 (vysoká)

3. Experiment: Discount Factor (γ)

Co se stane, když γ = 0? Agent přemýšlí jen o okamžité odměně!

γ Chování agenta
0.0
0.5
0.9

4. Experiment: Epsilon (ε) - Exploration vs Exploitation

🎲
Exploration
Náhodné akce
Může najít nové cesty
Často chybuje
🎯
Exploitation
Nejlepší známá akce
Bezpečné, efektivní
Může uvíznout

V simulátoru uvidíš 🎲, když agent provede exploration (náhodnou akci).

ε Kolik 🎲 vidíš? Efekt na učení
0.0
0.3
1.0
4

Bellmanova rovnice - Srdce Q-Learningu

~ 35 min

1. Vzorec pro aktualizaci Q-hodnot

Q(s,a) ← Q(s,a) + α[ r + γ·max(Q') - Q(s,a) ]
Q(s,a)
Stará hodnota akce
α
Learning rate (jak moc aktualizovat)
r
Okamžitá odměna
γ·max(Q')
Diskontovaná budoucí odměna

2. Příklad výpočtu

Agent je na pozici [2,3], jde doprava, dostane -1 (krok), nový stav má max Q' = 50.

Starý Q([2,3], doprava) = 10
α = 0.5, γ = 0.9, r = -1, max(Q') = 50

Výpočet:
Nový Q = 10 + 0.5 × [(-1) + 0.9 × 50 - 10]
Nový Q = 10 + 0.5 × [-1 + 45 - 10]
Nový Q = 10 + 0.5 × [34]
Nový Q = 10 + 17 =

3. Experiment: Sleduj "Detail posledního kroku"

V simulátoru dole je panel s matematickým výpočtem. Proveď pár kroků a zapiš:

Krok Stav Akce Odměna Nová Q-hodnota
1
2
3

4. Proč Bellman funguje?

5

Scénáře a výzvy

~ 40 min

1. Srovnání scénářů

Vyzkoušej různé scénáře a zaznamenej, kolik epizod je potřeba k úspěchu:

Scénář Epizod do 90% úspěšnosti Hlavní výzva
Prázdná místnost
Výchozí
Útes (Cliff)
Bludiště
Spirála

2. Výzva: Útes s různými ε

The Cliff Problem:

Na scénáři "Útes" je zkratka podél řady pastí. S vysokým ε agent někdy spadne, ale může najít rychlejší cestu. S nízkým ε jde bezpečně, ale pomaleji.
ε Preferovaná cesta Průměr kroků do cíle
0.1
0.5

3. Vlastní bludiště

Nakresli vlastní bludiště a natrénuj agenta:

Velikost bludiště:
Počet zdí:
Počet pastí:
Epizod k naučení:
Nejlepší parametry:

4. Nakresli naučenou cestu

Nakresli schéma tvého bludiště s šipkami ukazujícími naučenou cestu:

6

Rychlý trénink a analýza

~ 25 min

1. Rychlý trénink (100 epizod)

Použij tlačítko "Rychlý trénink" a porovnej výsledky:

Scénář Úspěšnost Selhání Úspěšnost (%)
Výchozí
Útes
Spirála

2. "Zobrazit Q-hodnoty"

Zmáčkni tlačítko "Zobrazit Q-hodnoty". Místo šipek nyní vidíš čísla.

Co znamenají tato čísla?

3. Kdy agent "ví" cestu?

7

Klíčové závěry a reflexe

~ 20 min

1. Co jsme se naučili

Koncept Tvé shrnutí
Reinforcement Learning
Q-tabulka
Exploration vs Exploitation
Bellmanova rovnice
Parametry (α, ε, γ)

2. Reálné aplikace RL

Kde se RL používá:

🎮 Hry: AlphaGo, DeepMind Atari, OpenAI Five (Dota 2)
🤖 Robotika: Učení chůze, manipulace s objekty
🚗 Autonomní vozidla: Rozhodování v provozu
📈 Finance: Algoritmické obchodování
🏭 Průmysl: Optimalizace výrobních procesů

3. Závěrečná reflexe

Jaký byl tvůj největší "aha moment"?

Co tě překvapilo na chování agenta?

Jak bys vysvětlil/a RL kamarádovi?

4. Sebehodnocení

Jak dobře rozumím Q-Learningu? (1 = vůbec, 5 = úplně)