Dosud jsi poznával Supervised a Unsupervised Learning. Teď přichází třetí způsob:
| Aspekt | Supervised | Reinforcement |
|---|---|---|
| Data | Vstup + správná odpověď | |
| Učitel | Člověk označuje správné odpovědi | |
| Feedback | Okamžitý - vím, co je správně | |
| Cíl | Naučit se mapování vstup → výstup |
Kde se Reinforcement Learning používá?
Porovnání přístupů:
| Metoda | Když použít? | Příklad |
|---|---|---|
| Q-Tabulka | Malý počet stavů | |
| Deep Q-Network | Obří počet stavů |
Příklad: Bludiště
Agent je na políčku (5,5). Má 4 možnosti: ↑↓←→
| Stav | ↑ | ↓ | ← | → |
|---|---|---|---|---|
| (5,5) | 12.3 | -5.2 | 8.7 | 25.4 |
✅ Agent vybere akci →, protože má nejvyšší Q-hodnotu (25.4)
Na začátku:
Během učení:
Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]
Co znamenají symboly?
| Symbol | Název | Co znamená? |
|---|---|---|
s |
Stav | |
a |
Akce | |
r |
Odměna | |
s' |
Nový stav | |
α |
Learning rate | |
γ |
Discount factor |
Představ si: Agent je na pozici (2,3), udělá krok →, dostane odměnu -1, a skončí na (2,4).
Co se stalo?
V simulátoru změň parametry a sleduj, jak to ovlivní učení.
| Parametr | Hodnota | Co se stalo? | Proč? |
|---|---|---|---|
| α (Learning rate) | |||
| γ (Discount) |
Analogie: Restaurace
Máš oblíbenou restauraci (exploitation). Ale co když o kus dál je ještě lepší? (exploration)
Experimenty:
| ε hodnota | Chování agenta | Úspěšnost | Proč? |
|---|---|---|---|
| ε = 0.0 | |||
| ε = 0.3 | |||
| ε = 1.0 |
Strategie: Začni s vysokým ε (hodně探索), postupně ho snižuj (víc využívej naučené).
Proč to dává smysl?
Příklad: Bludiště
V simulátoru změň odměny a sleduj, jak to ovlivní chování.
| Odměna za... | Původní | Tvůj experiment | Co se stalo? |
|---|---|---|---|
| Dosažení cíle | +100 | ||
| Každý krok | -1 | ||
| Náraz do zdi | -10 | ||
| Vstup do lávy | -50 |
Experiment 1: Krok = 0 (žádná penalizace za kroky)
Hypotéza:
Ověř a zapiš:
Experiment 2: Cíl = +1, Krok = -1
Co se stane?
Pravidla:
Problém: Exploze stavů
| Hra/Úloha | Počet stavů | Q-Tabulka možná? |
|---|---|---|
| Bludiště 10×10 | 100 | |
| Šachy | ~1043 | |
| Atari (84×84 pixelů) | 25684×84 |
Porovnání:
| Q-Tabulka | Deep Q-Network | |
|---|---|---|
| Paměť | Tabulka (stav×akce) | |
| Generalizace | Žádná - každý stav samostatně | |
| Update | Bellmanova rovnice | |
| Použití | Malé problémy |
Propojení všech worksheetů:
DQN = MLP + Q-Learning!
Jaký je největší rozdíl mezi RL a supervised learning?
Proč je exploration tak důležitá?
Kde vidíš největší potenciál RL v budoucnosti?