Badatelský deník inženýra AI

1

Co je Reinforcement Learning?

~ 35 min

1. Tři typy strojového učení

Typ	Jak se učí	Příklad
Supervised Learning	Z příkladů s odpověďmi	Rozpoznání fotografií
Unsupervised Learning	Hledá vzory bez odpovědí	Shlukování zákazníků
Reinforcement Learning	Pokus-omyl s odměnami	Hry, robotika, autopilot

2. Klíčové koncepty RL

                Agent = umělá inteligence, která se učí

                Prostředí = svět, ve kterém agent jedná

                Stav = pozice/situace agenta

                Akce = pohyb/rozhodnutí agenta

                Odměna = zpětná vazba (+ nebo -)

3. Odměny v simulátoru

💎

+100

Cíl

🔥

-100

Past

👣

-1

Každý krok

🧱

0

Zeď (nelze)

Proč má každý krok malý trest (-1)?

4. Analogie z reálného života

Připodobn RL k učení psa:

Agent
Prostředí
Akce
Pozitivní odměna
Negativní odměna

2

Q-Learning a Q-tabulka

~ 40 min

1. Co je Q-Learning?

                Q-Learning = algoritmus, kde agent buduje "mapu" nejlepších akcí.

                Q-hodnota = očekávaná celková odměna, pokud v daném stavu provedu danou akci.

                Vysoká Q = dobrá akce, Nízká/záporná Q = špatná akce.

2. Struktura Q-tabulky

Q-tabulka mapuje: (Stav, Akce) → Hodnota

Například pro pozici [3,2]:
- Q([3,2], nahoru) =
- Q([3,2], dolů) =
- Q([3,2], vlevo) =
- Q([3,2], vpravo) =

3. Čtení šipek v simulátoru

V každé buňce vidíš 4 šipky (▲▼◀▶). Co znamenají jejich barvy?

Zelená šipka
Červená šipka
Šedá šipka
Větší šipka

4. Experiment: Sleduj učení

Spusť trénink na výchozím scénáři. Zaznamenej, jak se šipky mění:

Epizoda	Co pozoruješ na šipkách?
1-5
10-20
50+

3

Parametry Q-Learningu

~ 45 min

1. Tři klíčové parametry

α

Learning Rate

Jak rychle přepisuje staré zkušenosti

ε

Epsilon (Zvědavost)

Pravděpodobnost náhodné akce

γ

Discount Factor

Jak moc záleží na budoucnosti

2. Experiment: Learning Rate (α)

Resetuj vše a trénuj 50 epizod s různými hodnotami α:

α	Úspěšnost po 50 epizodách	Pozorování
0.1 (nízká)
0.5 (střední)
1.0 (vysoká)

3. Experiment: Discount Factor (γ)

Co se stane, když γ = 0? Agent přemýšlí jen o okamžité odměně!

γ	Chování agenta
0.0
0.5
0.9

4. Experiment: Epsilon (ε) - Exploration vs Exploitation

🎲

Exploration

Náhodné akce
Může najít nové cesty
Často chybuje

🎯

Exploitation

Nejlepší známá akce
Bezpečné, efektivní
Může uvíznout

V simulátoru uvidíš 🎲, když agent provede exploration (náhodnou akci).

ε	Kolik 🎲 vidíš?	Efekt na učení
0.0
0.3
1.0

4

Bellmanova rovnice - Srdce Q-Learningu

~ 35 min

1. Vzorec pro aktualizaci Q-hodnot

Q(s,a) ← Q(s,a) + α[ r + γ·max(Q') - Q(s,a) ]

Q(s,a)
Stará hodnota akce

α
Learning rate (jak moc aktualizovat)

r
Okamžitá odměna

γ·max(Q')
Diskontovaná budoucí odměna

2. Příklad výpočtu

Agent je na pozici [2,3], jde doprava, dostane -1 (krok), nový stav má max Q' = 50.

Starý Q([2,3], doprava) = 10
α = 0.5, γ = 0.9, r = -1, max(Q') = 50

Výpočet:
Nový Q = 10 + 0.5 × [(-1) + 0.9 × 50 - 10]
Nový Q = 10 + 0.5 × [-1 + 45 - 10]
Nový Q = 10 + 0.5 × [34]
Nový Q = 10 + 17 =

3. Experiment: Sleduj "Detail posledního kroku"

V simulátoru dole je panel s matematickým výpočtem. Proveď pár kroků a zapiš:

Krok	Stav	Akce	Odměna	Nová Q-hodnota
1
2
3

4. Proč Bellman funguje?

5

Scénáře a výzvy

~ 40 min

1. Srovnání scénářů

Vyzkoušej různé scénáře a zaznamenej, kolik epizod je potřeba k úspěchu:

Scénář	Epizod do 90% úspěšnosti	Hlavní výzva
Prázdná místnost
Výchozí
Útes (Cliff)
Bludiště
Spirála

2. Výzva: Útes s různými ε

The Cliff Problem:

Na scénáři "Útes" je zkratka podél řady pastí. S vysokým ε agent někdy spadne, ale může najít rychlejší cestu. S nízkým ε jde bezpečně, ale pomaleji.

ε	Preferovaná cesta	Průměr kroků do cíle
0.1
0.5

3. Vlastní bludiště

Nakresli vlastní bludiště a natrénuj agenta:

Velikost bludiště:
Počet zdí:
Počet pastí:
Epizod k naučení:
Nejlepší parametry:

4. Nakresli naučenou cestu

Nakresli schéma tvého bludiště s šipkami ukazujícími naučenou cestu:

6

Rychlý trénink a analýza

~ 25 min

1. Rychlý trénink (100 epizod)

Použij tlačítko "Rychlý trénink" a porovnej výsledky:

Scénář	Úspěšnost	Selhání	Úspěšnost (%)
Výchozí
Útes
Spirála

2. "Zobrazit Q-hodnoty"

Zmáčkni tlačítko "Zobrazit Q-hodnoty". Místo šipek nyní vidíš čísla.

Co znamenají tato čísla?

Očekávaná celková odměna pro danou akci

Čím vyšší číslo, tím lepší akce

Záporná čísla = cesta vede k pasti nebo daleko od cíle

3. Kdy agent "ví" cestu?

7

Klíčové závěry a reflexe

~ 20 min

1. Co jsme se naučili

Koncept	Tvé shrnutí
Reinforcement Learning
Q-tabulka
Exploration vs Exploitation
Bellmanova rovnice
Parametry (α, ε, γ)

2. Reálné aplikace RL

Kde se RL používá:

🎮 Hry: AlphaGo, DeepMind Atari, OpenAI Five (Dota 2)
🤖 Robotika: Učení chůze, manipulace s objekty
🚗 Autonomní vozidla: Rozhodování v provozu
📈 Finance: Algoritmické obchodování
🏭 Průmysl: Optimalizace výrobních procesů

3. Závěrečná reflexe

Jaký byl tvůj největší "aha moment"?

Co tě překvapilo na chování agenta?

Jak bys vysvětlil/a RL kamarádovi?

4. Sebehodnocení

Jak dobře rozumím Q-Learningu? (1 = vůbec, 5 = úplně)

1 - Potřebuji více procvičování

2 - Rozumím základům, ale mám mezery

3 - Rozumím většině, ještě ladím detaily

4 - Rozumím dobře, dokážu nastavit parametry

5 - Rozumím úplně, dokážu vysvětlit Bellmanovu rovnici