Badatelský deník inženýra AI

1

DQN = MLP + Q-Learning

~ 45 min

1. Evoluce Reinforcement Learningu

Od tabulky k neuronové síti - proč?

📊

Q-Tabulka

Diskrétní stavy

→

🧠

DQN

Spojité stavy

2. Problém spojitého prostoru

Q-Tabulka (bludiště):

Stavy: (0,0), (0,1), (0,2)... celkem 100
Každý stav má přesnou buňku v tabulce

DQN (3D prostředí):

Pozice: X=12.543, Y=3.141, Rotace=45.2°
Počet možných stavů:

                Klíčová myšlenka: Neuronová síť funguje jako aproximátor

                Q-funkce.

                Místo tabulky s biliony řádků máme síť, která zobecňuje - naučí se pravidla (např.

                "když je Chaser blízko, utíkej!").

3. Architektura DQN

Vstup (12 hodnot):
• Pozice Evadera (X, Y, rotace)
• Pozice Chasera (X, Y, rotace)
• Pozice štítu (X, Y)
• Stav štítu (drží/nedrží, countdown)
• Vzdálenosti

Síť: 12 → 64 → 32 → 8

Výstup (8 akcí):
Q-hodnota pro každou akci (↑↓←→ + rotace ±)

Porovnej s předchozími worksheety:

Worksheet	Vstup	Výstup
MLP Grayscale	784 pixelů	10 tříd (číslice)
CNN	Obrázek	Klasifikace
Transformer	Tokeny (slova)	Predikce slova
DQN	Stav prostředí	Q-hodnoty akcí

2

Dva agenti, jedna hra

~ 45 min

1. Chaser vs Evader

Každý agent má vlastní neuronovou síť!

🦊 Chaser

Cíl: Chytit Evadera
Odměna: +1 za chycení
Strategie:

🐔 Evader

Cíl: Uniknout, přežít
Odměna: +1 za časový krok
Strategie:

2. Mechanika štítu

                Žlutý štít: Evader ho může zvednout a přenášet.

                Když drží štít, je imunní vůči chycení po dobu 3 sekund!

Experimenty ve hře:

Situace	Co dělá Evader?	Co dělá Chaser?
Štít poblíž
Evader drží štít
Štít vypršel

3. Emergentní chování

Co znamená "emergentní"?

Sleduj ve hře a zapiš 3 zajímavá chování:

3

Experience Replay - Paměť zkušeností

~ 60 min

1. Problém korelace

Naivní přístup: Agent se učí z každého kroku okamžitě.

                Problém: Několik kroků po sobě je velmi podobných!

                Krok 1: Evader na (10, 5), jde doprava → (10.1, 5)

                Krok 2: Evader na (10.1, 5), jde doprava → (10.2, 5)

                Krok 3: Evader na (10.2, 5), jde doprava → (10.3, 5)

                Síť se "přeučí" na tyto podobné situace a zapomene staré zkušenosti!

2. Řešení: Replay Buffer

Replay Buffer = Paměť posledních 10,000 zkušeností

Struktura: (stav, akce, odměna, nový_stav)

Učení:
1. Ulož zkušenost do bufferu
2. Náhodně vyber dávku (batch) 64 zkušeností
3. Uč se z nich pomocí backprop

Proč náhodný výběr?

Aby se síť učila rychleji

Aby záběry nebyly korelované (podobné)

Aby se síť nenaučila jen nové věci

3. Analogie: Studování na zkoušku

Přístup	Jak se učíš?	Problém
Bez Replay	Čteš kapitoly postupně 1→2→3
S Replay	Náhodně si otevřeš jakoukoliv stránku

Proč je buffer omezený na 10,000?

4

Target Network - Stabilizace učení

~ 45 min

1. Problém "honění vlastního ocasu"

                Bellmanova rovnice (připomenutí):

                Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

                Problém: max Q(s',a') se počítá se STEJNOU sítí, kterou zrovna trénujeme!

                → Cíl se pořád mění → nestabilní učení

2. Řešení: Dvě sítě

Online Network (trénuje se):
→ Vybírá akce, učí se z replay bufferu

Target Network (zmrazená kopie):
→ Poskytuje stabilní cílové Q-hodnoty
→ Aktualizuje se každých X kroků (např. 1000)

Diagram:

3. Analogie: Běžec a tempo

Představ si, že běžíš maraton a měříš si tempo.

	S jednou sítí	S Target Network
Co se děje?	Tempoměr se mění každou vteřinu
Výsledek	Chaotické tempo, nejasný cíl

4. Experimentální pozorování

Sleduj Loss grafy v simulátoru:

Pokud je Target Network aktivní, Loss by měla být:

Vyšší (síť se učí víc)

Stabilnější (méně výkyvů)

Náhodná (žádný efekt)

Ověř a zapiš výsledek:

5

Reward Engineering v multi-agent prostředí

~ 45 min

1. Složitost odměn - 2 agenti

Chaser odměny:

+1.0 za chycení Evadera
×2.0 za každý krok přiblížení

Evader odměny:

+1.0 za každý časový krok (přežití)
+0.5 za zvědnutí štítu
+2.0 za vzdálení od Chasera

2. Experimentování s odměnami

V simulátoru změň odměny a sleduj změny chování.

Změna	Hypotéza	Výsledek
Chaser chycení = +10
Evader štít = +5
Evader přežití = 0

3. Zero-sum vs Cooperative

Tato hra je "zero-sum":

                Zisk jednoho = ztráta druhého

                Když Chaser chytí → vyhrává, Evader prohrává

Jak by vypadala "kooperativní" verze?

6

Celá cesta - Od perceptronu k DQN

~ 60 min

1. Velké finále - Všechny worksheety

🎓 Gratulujeme! Dokončil/a jsi celou sérii AI worksheetů!

Od jednoduchého perceptronu až po pokročilé Deep Q-Networks.
To je cesta skutečného inženýra AI!

Propojení všech konceptů v DQN:

Worksheet	Koncept	Jak se používá v DQN?
MLP Builder	Neurony, váhy, backprop
MLP Grayscale	Softmax, klasifikace
ReLU Lab	Aktivační funkce
CNN	Feature extraction
Autoencoder	Komprese, latentní prostor
GAN	Adversariální trénink
Transformer	Attention, kontext
Q-Learning	Bellman, odměny
DQN	Všechno dohromady!

2. Největší průlomy na cestě

Které 3 "aha momenty" byly pro tebe nejsilnější?

3. Od DQN dál - Kam pokračovat?

Pokročilé RL algoritmy:

A3C -
PPO -
SAC -
AlphaZero -

4. Závěrečná reflexe

Co je pro tebe největší rozdíl mezi Supervised a Reinforcement Learningem?

Jaké reálné aplikace DQN tě nejvíc zaujaly/inspirovaly?

Kdyby sis měl/a vybrat 1 projekt na pokračování - co by to bylo?

5. Poděkování

🌟 Skvělá práce! 🌟

Prošel/prošla jsi cestou od základních neuronů k pokročilým AI systémům.
Toto je jen začátek - svět umělé inteligence je nekonečně fascinující.

„Nejlepší způsob, jak předpovědět budoucnost, je vytvořit ji."
- Alan Kay