Od tabulky k neuronové síti - proč?
Q-Tabulka (bludiště):
DQN (3D prostředí):
Porovnej s předchozími worksheety:
| Worksheet | Vstup | Výstup | Učení |
|---|---|---|---|
| MLP Grayscale | 784 pixelů | 10 tříd (číslice) | |
| CNN | Obrázek | Klasifikace | |
| Transformer | Tokeny (slova) | Predikce slova | |
| DQN | Stav prostředí | Q-hodnoty akcí |
Každý agent má vlastní neuronovou síť!
Cíl: Chytit Evadera
Odměna: +1 za chycení
Strategie:
Cíl: Uniknout, přežít
Odměna: +1 za časový krok
Strategie:
Experimenty ve hře:
| Situace | Co dělá Evader? | Co dělá Chaser? |
|---|---|---|
| Štít poblíž | ||
| Evader drží štít | ||
| Štít vypršel |
Co znamená "emergentní"?
Sleduj ve hře a zapiš 3 zajímavá chování:
Naivní přístup: Agent se učí z každého kroku okamžitě.
Proč náhodný výběr?
| Přístup | Jak se učíš? | Problém |
|---|---|---|
| Bez Replay | Čteš kapitoly postupně 1→2→3 | |
| S Replay | Náhodně si otevřeš jakoukoliv stránku |
Proč je buffer omezený na 10,000?
Diagram:
Představ si, že běžíš maraton a měříš si tempo.
| S jednou sítí | S Target Network | |
|---|---|---|
| Co se děje? | Tempoměr se mění každou vteřinu | |
| Výsledek | Chaotické tempo, nejasný cíl |
Sleduj Loss grafy v simulátoru:
Pokud je Target Network aktivní, Loss by měla být:
Ověř a zapiš výsledek:
Chaser odměny:
Evader odměny:
V simulátoru změň odměny a sleduj změny chování.
| Změna | Hypotéza | Výsledek |
|---|---|---|
| Chaser chycení = +10 | ||
| Evader štít = +5 | ||
| Evader přežití = 0 |
Tato hra je "zero-sum":
Jak by vypadala "kooperativní" verze?
Od jednoduchého perceptronu až po pokročilé Deep Q-Networks.
To je cesta skutečného inženýra AI!
Propojení všech konceptů v DQN:
| Worksheet | Koncept | Jak se používá v DQN? |
|---|---|---|
| MLP Builder | Neurony, váhy, backprop | |
| MLP Grayscale | Softmax, klasifikace | |
| ReLU Lab | Aktivační funkce | |
| CNN | Feature extraction | |
| Autoencoder | Komprese, latentní prostor | |
| GAN | Adversariální trénink | |
| Transformer | Attention, kontext | |
| Q-Learning | Bellman, odměny | |
| DQN | Všechno dohromady! |
Které 3 "aha momenty" byly pro tebe nejsilnější?
Pokročilé RL algoritmy:
Co je pro tebe největší rozdíl mezi Supervised a Reinforcement Learningem?
Jaké reálné aplikace DQN tě nejvíc zaujaly/inspirovaly?
Kdyby sis měl/a vybrat 1 projekt na pokračování - co by to bylo?
🌟 Skvělá práce! 🌟
Prošel/prošla jsi cestou od základních neuronů k pokročilým AI systémům.
Toto je jen začátek - svět umělé inteligence je nekonečně fascinující.
„Nejlepší způsob, jak předpovědět budoucnost, je vytvořit ji."
- Alan Kay