Badatelský deník inženýra AI

1

Třetí paradigma - Reinforcement Learning

~ 45 min

1. Tři cesty strojového učení

Dosud jsi poznával Supervised a Unsupervised Learning. Teď přichází třetí způsob:

📚

Supervised

Učitel s odpověďmi
MLP, CNN

🔮

Unsupervised

Hledání struktury
Autoencoder

🎮

Reinforcement

Učení odměnou
Q-Learning

2. Klíčové rozdíly

Aspekt	Supervised	Reinforcement
Data	Vstup + správná odpověď
Učitel	Člověk označuje správné odpovědi
Feedback	Okamžitý - vím, co je správně
Cíl	Naučit se mapování vstup → výstup

3. Analogie z reálného života

                Supervised: Učení se matematiky s učitelem, který ti řekne, jestli máš správně.

                Reinforcement: Učení se jezdit na kole - padáš, vstáváš, a časem se naučíš, co funguje.

Kde se Reinforcement Learning používá?

2

Q-Tabulka - Paměť bez neuronů

~ 45 min

1. Proč tabulka, ne neuronová síť?

                Překvapení: Ne každá AI potřebuje neuronovou síť!

                Když je počet stavů malý a konečný (10×10 = 100 políček), stačí

                tabulka.

Porovnání přístupů:

Metoda	Když použít?	Příklad
Q-Tabulka	Malý počet stavů
Deep Q-Network	Obří počet stavů

2. Co je Q-hodnota?

Q(stav, akce) = Očekávaná celková odměna

"Jak dobré je udělat akci a ve stavu s?"

Příklad: Bludiště

Agent je na políčku (5,5). Má 4 možnosti: ↑↓←→

Stav	↑	↓	←	→
(5,5)	12.3	-5.2	8.7	25.4

✅ Agent vybere akci →, protože má nejvyšší Q-hodnotu (25.4)

3. Jak vzniká Q-tabulka?

Na začátku:

Všechny Q-hodnoty = 0

Náhodné hodnoty

Během učení:

3

Bellmanova rovnice - Srdce Q-Learningu

~ 60 min

1. Rovnice, která vládne všemu

Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

Co znamenají symboly?

Symbol	Název	Co znamená?
`s`	Stav
`a`	Akce
`r`	Odměna
`s'`	Nový stav
`α`	Learning rate
`γ`	Discount factor

2. Rozpitvání rovnice

Představ si: Agent je na pozici (2,3), udělá krok →, dostane odměnu -1, a skončí na (2,4).

1. Současná Q-hodnota: Q(2,3 → right) = 5.0
2. Odměna za krok: r = -1
3. Nejlepší Q v novém stavu: max Q(2,4) = 8.0
4. Cílová hodnota: r + γ·max Q = -1 + 0.9×8 = 6.2
5. Rozdíl (TD-error): 6.2 - 5.0 = 1.2
6. Update: Q ← 5.0 + 0.5×1.2 = 5.6

Co se stalo?

3. Experimenty s parametry

V simulátoru změň parametry a sleduj, jak to ovlivní učení.

Parametr	Hodnota	Co se stalo?	Proč?
α (Learning rate)
γ (Discount)

4

Exploration vs Exploitation

~ 45 min

1. Dilema průzkumníka

                Exploitation (využívání): Dělej to, co podle tabulky funguje nejlépe.

                Exploration (zkoumání): Zkus něco nového, možná objevíš lepší cestu!

Analogie: Restaurace

Máš oblíbenou restauraci (exploitation). Ale co když o kus dál je ještě lepší? (exploration)

2. Epsilon-greedy strategie

ε (epsilon) = pravděpodobnost náhodné akce

• ε = 0.3 → 30% náhodná akce (exploration)
• ε = 0.3 → 70% nejlepší akce (exploitation)

Experimenty:

ε hodnota	Chování agenta	Úspěšnost	Proč?
ε = 0.0
ε = 0.3
ε = 1.0

3. Epsilon decay - Postupné uklidnění

Strategie: Začni s vysokým ε (hodně探索), postupně ho snižuj (víc využívej naučené).

ε = ε × 0.99 (každou epizodu)

Episode 1: ε = 1.0 (100% náhodné)
Episode 100: ε = 0.37 (37% náhodné)
Episode 500: ε = 0.01 (1% náhodné)

Proč to dává smysl?

5

Reward Shaping - Návrh odměn

~ 45 min

1. Odměny = Jediný učitel

                Klíčová pravda: Agent dělá přesně to, co maximalizuje jeho odměnu.

                Špatně navržené odměny → špatné chování!

Příklad: Bludiště

V simulátoru změň odměny a sleduj, jak to ovlivní chování.

Odměna za...	Původní	Tvůj experiment	Co se stalo?
Dosažení cíle	+100
Každý krok	-1
Náraz do zdi	-10
Vstup do lávy	-50

2. Patologické případy

Experiment 1: Krok = 0 (žádná penalizace za kroky)

Hypotéza:

Agent najde cestu rychleji

Agent bude bloudit, protože nemá důvod spěchat

Ověř a zapiš:

Experiment 2: Cíl = +1, Krok = -1

Co se stane?

3. Dobrý design odměn

Pravidla:

6

Od Q-Tabulky k Deep Q-Networks

~ 30 min

1. Limity Q-Tabulky

Problém: Exploze stavů

Hra/Úloha	Počet stavů	Q-Tabulka možná?
Bludiště 10×10	100
Šachy	~10⁴³
Atari (84×84 pixelů)	256^84×84

2. Řešení: Deep Q-Network (DQN)

                Nápad: Místo tabulky použij neuronovou síť!

                Vstup: Stav (pixely hry)

                Výstup: Q-hodnoty pro všechny akce

Porovnání:

	Q-Tabulka	Deep Q-Network
Paměť	Tabulka (stav×akce)
Generalizace	Žádná - každý stav samostatně
Update	Bellmanova rovnice
Použití	Malé problémy

3. Celá cesta AI - od začátku až sem

Propojení všech worksheetů:

MLP Builder:
CNN:
Autoencoder:
GAN:
Transformer:
Q-Learning:

DQN = MLP + Q-Learning!

4. Závěrečná reflexe

Jaký je největší rozdíl mezi RL a supervised learning?

Proč je exploration tak důležitá?

Kde vidíš největší potenciál RL v budoucnosti?