📊 Badatelský deník inženýra AI

Laboratoř neuronových sítí | Q-Learning - Učení odměnou
1

Třetí paradigma - Reinforcement Learning

~ 45 min

1. Tři cesty strojového učení

Dosud jsi poznával Supervised a Unsupervised Learning. Teď přichází třetí způsob:

📚
Supervised
Učitel s odpověďmi
MLP, CNN
🔮
Unsupervised
Hledání struktury
Autoencoder
🎮
Reinforcement
Učení odměnou
Q-Learning

2. Klíčové rozdíly

Aspekt Supervised Reinforcement
Data Vstup + správná odpověď
Učitel Člověk označuje správné odpovědi
Feedback Okamžitý - vím, co je správně
Cíl Naučit se mapování vstup → výstup

3. Analogie z reálného života

Supervised: Učení se matematiky s učitelem, který ti řekne, jestli máš správně.

Reinforcement: Učení se jezdit na kole - padáš, vstáváš, a časem se naučíš, co funguje.

Kde se Reinforcement Learning používá?

2

Q-Tabulka - Paměť bez neuronů

~ 45 min

1. Proč tabulka, ne neuronová síť?

Překvapení: Ne každá AI potřebuje neuronovou síť!

Když je počet stavů malý a konečný (10×10 = 100 políček), stačí tabulka.

Porovnání přístupů:

Metoda Když použít? Příklad
Q-Tabulka Malý počet stavů
Deep Q-Network Obří počet stavů

2. Co je Q-hodnota?

Q(stav, akce) = Očekávaná celková odměna

"Jak dobré je udělat akci a ve stavu s?"

Příklad: Bludiště

Agent je na políčku (5,5). Má 4 možnosti: ↑↓←→

Stav
(5,5) 12.3 -5.2 8.7 25.4

✅ Agent vybere akci →, protože má nejvyšší Q-hodnotu (25.4)

3. Jak vzniká Q-tabulka?

Na začátku:

Během učení:

3

Bellmanova rovnice - Srdce Q-Learningu

~ 60 min

1. Rovnice, která vládne všemu

Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

Co znamenají symboly?

Symbol Název Co znamená?
s Stav
a Akce
r Odměna
s' Nový stav
α Learning rate
γ Discount factor

2. Rozpitvání rovnice

Představ si: Agent je na pozici (2,3), udělá krok →, dostane odměnu -1, a skončí na (2,4).

1. Současná Q-hodnota: Q(2,3 → right) = 5.0
2. Odměna za krok: r = -1
3. Nejlepší Q v novém stavu: max Q(2,4) = 8.0
4. Cílová hodnota: r + γ·max Q = -1 + 0.9×8 = 6.2
5. Rozdíl (TD-error): 6.2 - 5.0 = 1.2
6. Update: Q ← 5.0 + 0.5×1.2 = 5.6

Co se stalo?

3. Experimenty s parametry

V simulátoru změň parametry a sleduj, jak to ovlivní učení.

Parametr Hodnota Co se stalo? Proč?
α (Learning rate)
γ (Discount)
4

Exploration vs Exploitation

~ 45 min

1. Dilema průzkumníka

Exploitation (využívání): Dělej to, co podle tabulky funguje nejlépe.

Exploration (zkoumání): Zkus něco nového, možná objevíš lepší cestu!

Analogie: Restaurace

Máš oblíbenou restauraci (exploitation). Ale co když o kus dál je ještě lepší? (exploration)

2. Epsilon-greedy strategie

ε (epsilon) = pravděpodobnost náhodné akce

• ε = 0.3 → 30% náhodná akce (exploration)
• ε = 0.3 → 70% nejlepší akce (exploitation)

Experimenty:

ε hodnota Chování agenta Úspěšnost Proč?
ε = 0.0
ε = 0.3
ε = 1.0

3. Epsilon decay - Postupné uklidnění

Strategie: Začni s vysokým ε (hodně探索), postupně ho snižuj (víc využívej naučené).

ε = ε × 0.99 (každou epizodu)

Episode 1: ε = 1.0 (100% náhodné)
Episode 100: ε = 0.37 (37% náhodné)
Episode 500: ε = 0.01 (1% náhodné)

Proč to dává smysl?

5

Reward Shaping - Návrh odměn

~ 45 min

1. Odměny = Jediný učitel

Klíčová pravda: Agent dělá přesně to, co maximalizuje jeho odměnu.

Špatně navržené odměny → špatné chování!

Příklad: Bludiště

V simulátoru změň odměny a sleduj, jak to ovlivní chování.

Odměna za... Původní Tvůj experiment Co se stalo?
Dosažení cíle +100
Každý krok -1
Náraz do zdi -10
Vstup do lávy -50

2. Patologické případy

Experiment 1: Krok = 0 (žádná penalizace za kroky)

Hypotéza:

Ověř a zapiš:

Experiment 2: Cíl = +1, Krok = -1

Co se stane?

3. Dobrý design odměn

Pravidla:

6

Od Q-Tabulky k Deep Q-Networks

~ 30 min

1. Limity Q-Tabulky

Problém: Exploze stavů

Hra/Úloha Počet stavů Q-Tabulka možná?
Bludiště 10×10 100
Šachy ~1043
Atari (84×84 pixelů) 25684×84

2. Řešení: Deep Q-Network (DQN)

Nápad: Místo tabulky použij neuronovou síť!

Vstup: Stav (pixely hry)
Výstup: Q-hodnoty pro všechny akce

Porovnání:

Q-Tabulka Deep Q-Network
Paměť Tabulka (stav×akce)
Generalizace Žádná - každý stav samostatně
Update Bellmanova rovnice
Použití Malé problémy

3. Celá cesta AI - od začátku až sem

Propojení všech worksheetů:

  1. MLP Builder:
  2. CNN:
  3. Autoencoder:
  4. GAN:
  5. Transformer:
  6. Q-Learning:

DQN = MLP + Q-Learning!

4. Závěrečná reflexe

Jaký je největší rozdíl mezi RL a supervised learning?

Proč je exploration tak důležitá?

Kde vidíš největší potenciál RL v budoucnosti?