🧠 Badatelský deník inženýra AI

Laboratoř neuronových sítí | Deep Q-Network - Finále
1

DQN = MLP + Q-Learning

~ 45 min

1. Evoluce Reinforcement Learningu

Od tabulky k neuronové síti - proč?

📊
Q-Tabulka
Diskrétní stavy
🧠
DQN
Spojité stavy

2. Problém spojitého prostoru

Q-Tabulka (bludiště):

DQN (3D prostředí):

Klíčová myšlenka: Neuronová síť funguje jako aproximátor Q-funkce.

Místo tabulky s biliony řádků máme síť, která zobecňuje - naučí se pravidla (např. "když je Chaser blízko, utíkej!").

3. Architektura DQN

Vstup (12 hodnot):
• Pozice Evadera (X, Y, rotace)
• Pozice Chasera (X, Y, rotace)
• Pozice štítu (X, Y)
• Stav štítu (drží/nedrží, countdown)
• Vzdálenosti

Síť: 12 → 64 → 32 → 8

Výstup (8 akcí):
Q-hodnota pro každou akci (↑↓←→ + rotace ±)

Porovnej s předchozími worksheety:

Worksheet Vstup Výstup Učení
MLP Grayscale 784 pixelů 10 tříd (číslice)
CNN Obrázek Klasifikace
Transformer Tokeny (slova) Predikce slova
DQN Stav prostředí Q-hodnoty akcí
2

Dva agenti, jedna hra

~ 45 min

1. Chaser vs Evader

Každý agent má vlastní neuronovou síť!

🦊 Chaser

Cíl: Chytit Evadera
Odměna: +1 za chycení
Strategie:

🐔 Evader

Cíl: Uniknout, přežít
Odměna: +1 za časový krok
Strategie:

2. Mechanika štítu

Žlutý štít: Evader ho může zvednout a přenášet.
Když drží štít, je imunní vůči chycení po dobu 3 sekund!

Experimenty ve hře:

Situace Co dělá Evader? Co dělá Chaser?
Štít poblíž
Evader drží štít
Štít vypršel

3. Emergentní chování

Co znamená "emergentní"?

Sleduj ve hře a zapiš 3 zajímavá chování:

3

Experience Replay - Paměť zkušeností

~ 60 min

1. Problém korelace

Naivní přístup: Agent se učí z každého kroku okamžitě.

Problém: Několik kroků po sobě je velmi podobných!

Krok 1: Evader na (10, 5), jde doprava → (10.1, 5)
Krok 2: Evader na (10.1, 5), jde doprava → (10.2, 5)
Krok 3: Evader na (10.2, 5), jde doprava → (10.3, 5)

Síť se "přeučí" na tyto podobné situace a zapomene staré zkušenosti!

2. Řešení: Replay Buffer

Replay Buffer = Paměť posledních 10,000 zkušeností

Struktura: (stav, akce, odměna, nový_stav)

Učení:
1. Ulož zkušenost do bufferu
2. Náhodně vyber dávku (batch) 64 zkušeností
3. Uč se z nich pomocí backprop

Proč náhodný výběr?

3. Analogie: Studování na zkoušku

Přístup Jak se učíš? Problém
Bez Replay Čteš kapitoly postupně 1→2→3
S Replay Náhodně si otevřeš jakoukoliv stránku

Proč je buffer omezený na 10,000?

4

Target Network - Stabilizace učení

~ 45 min

1. Problém "honění vlastního ocasu"

Bellmanova rovnice (připomenutí):
Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

Problém: max Q(s',a') se počítá se STEJNOU sítí, kterou zrovna trénujeme!
→ Cíl se pořád mění → nestabilní učení

2. Řešení: Dvě sítě

Online Network (trénuje se):
→ Vybírá akce, učí se z replay bufferu

Target Network (zmrazená kopie):
→ Poskytuje stabilní cílové Q-hodnoty
→ Aktualizuje se každých X kroků (např. 1000)

Diagram:

3. Analogie: Běžec a tempo

Představ si, že běžíš maraton a měříš si tempo.

S jednou sítí S Target Network
Co se děje? Tempoměr se mění každou vteřinu
Výsledek Chaotické tempo, nejasný cíl

4. Experimentální pozorování

Sleduj Loss grafy v simulátoru:

Pokud je Target Network aktivní, Loss by měla být:

Ověř a zapiš výsledek:

5

Reward Engineering v multi-agent prostředí

~ 45 min

1. Složitost odměn - 2 agenti

Chaser odměny:

Evader odměny:

2. Experimentování s odměnami

V simulátoru změň odměny a sleduj změny chování.

Změna Hypotéza Výsledek
Chaser chycení = +10
Evader štít = +5
Evader přežití = 0

3. Zero-sum vs Cooperative

Tato hra je "zero-sum":

Zisk jednoho = ztráta druhého
Když Chaser chytí → vyhrává, Evader prohrává

Jak by vypadala "kooperativní" verze?

6

Celá cesta - Od perceptronu k DQN

~ 60 min

1. Velké finále - Všechny worksheety

🎓 Gratulujeme! Dokončil/a jsi celou sérii AI worksheetů!

Od jednoduchého perceptronu až po pokročilé Deep Q-Networks.
To je cesta skutečného inženýra AI!

Propojení všech konceptů v DQN:

Worksheet Koncept Jak se používá v DQN?
MLP Builder Neurony, váhy, backprop
MLP Grayscale Softmax, klasifikace
ReLU Lab Aktivační funkce
CNN Feature extraction
Autoencoder Komprese, latentní prostor
GAN Adversariální trénink
Transformer Attention, kontext
Q-Learning Bellman, odměny
DQN Všechno dohromady!

2. Největší průlomy na cestě

Které 3 "aha momenty" byly pro tebe nejsilnější?

3. Od DQN dál - Kam pokračovat?

Pokročilé RL algoritmy:

4. Závěrečná reflexe

Co je pro tebe největší rozdíl mezi Supervised a Reinforcement Learningem?

Jaké reálné aplikace DQN tě nejvíc zaujaly/inspirovaly?

Kdyby sis měl/a vybrat 1 projekt na pokračování - co by to bylo?

5. Poděkování

🌟 Skvělá práce! 🌟

Prošel/prošla jsi cestou od základních neuronů k pokročilým AI systémům.
Toto je jen začátek - svět umělé inteligence je nekonečně fascinující.

„Nejlepší způsob, jak předpovědět budoucnost, je vytvořit ji."
- Alan Kay