🎨 Badatelský deník inženýra AI

Laboratoř neuronových sítí | GAN - Generativní Adversariální Síť
1

Od Autoencoderu ke GANu

~ 45 min

1. Návaznost na předchozí kapitoly

V předchozích kapitolách jsi pracoval/a s různými typy sítí. GAN je kombinací všeho, co jsi se naučil/a!

Typ sítě Co dělá? Jak souvisí s GAN?
MLP Klasifikátor Obrázek → Třída (0-9)
Autoencoder Decoder Latent → Rekonstrukce
CNN Detekce rysů

2. Klíčový rozdíl: Autoencoder vs. GAN

Autoencoder Decoder:
Vstup: Latentní vektor z ENCODERU (naučený z originálu)
Cíl: Rekonstruovat originální obrázek

GAN Generator:
Vstup: NÁHODNÝ ŠUM z normálního rozdělení
Cíl: Vytvořit nový obrázek, který vypadá realisticky

Proč je to revoluční?

3. Architektura GANu

🎨
Generator
Šum → Fake obrázek
VS
🔍
Discriminator
Obrázek → Real/Fake?

Doplň dimenze:

2

Adversariální trénink - "Hra dvou hráčů"

~ 45 min

1. Analogie: Padělatel vs. Detektiv

Generator = Padělatel (falzifikátor bankovek)
→ Snaží se vytvořit falešné peníze, které vypadají jako pravé

Discriminator = Detektiv (expert na paděláky)
→ Snaží se rozpoznat pravé od falešných

Co se stane, když trénujeme obě sítě najednou?

  1. G vytvoří falešný obrázek
  2. D ho zkontroluje: "To je fake!"
  3. G se poučí: "Musím to udělat lépe..."
  4. D se taky poučí: "Musím být pozornější..."

Výsledek:

2. Min-Max hra

Generator minimalizuje: D(G(z)) → 0 (chce, aby D si myslel, že fake je real)
Discriminator maximalizuje: D(real) → 1, D(fake) → 0

→ Konflikt! Jeden úspěch = druhého neúspěch

V ideálním stavu:

Vysvětlení:

3. Fáze tréninku

V simulátoru sleduj, jak se mění "G Score" a "D Score" během tréninku.

🌱
Začátek
G: šum, D: 100%
⚔️
Boj
G se zlepšuje
⚖️
Rovnováha
Oba ~50%
💥
Kolaps
Mode collapse

Kterou fázi jsi pozoroval/a v simulátoru po 100 krocích?

3

Kvalita generovaných obrázků

~ 45 min

1. Pozorování vývoje

Použij tlačítko "🎲 Generovat nové" v pravém panelu. Sleduj, jak se kvalita mění s tréninkem.

Krok tréninku Jak vypadají generované obrázky? D Score (%)
0 (začátek)
50
200
500

2. Real vs. Fake porovnání

Sleduj sekci "Real vs Fake porovnání" (zelené = real, růžové = fake).

Test: Dokážeš ty sám/sama rozlišit, které obrázky jsou reálné a které generované?

Pozice v gridu Tvůj tip (Real/Fake) Skutečnost Správně?
1. řádek, 1. sloupec
1. řádek, 3. sloupec
2. řádek, 2. sloupec

Úspěšnost: / 3

3. Variabilita generovaného obsahu

Otázka: Když generuješ 16 obrázků, jsou všechny různé nebo podobné?

Proč je variabilita důležitá?

4

Balance - Rovnováha sil

~ 45 min

1. Význam balance parametru

Balance slider (-5 až +5) řídí, která síť se trénuje více:
◀ -5: D silnější | 0: vyrovnané | +5: G silnější ▶

2. Experimenty s Balance

Pro každý pokus: Reset vah, nastav Balance, trénuj 300 kroků.

Balance G Loss (finální) D Loss (finální) Kvalita obrázků
-5 (D silnější)
0 (vyrovnané)
+5 (G silnější)

3. Co se děje při nevyváženosti?

Když je D příliš silný:

Když je G příliš silný:

4. Grafická analýza Loss

Zakresli ideální průběh Loss funkcí (G Loss = fialová, D Loss = růžová):

Interpretace: V ideálním případě by Loss obou sítí měl:

5

Mode Collapse - Když GAN selže

~ 30 min

1. Co je mode collapse?

Mode Collapse: G objeví "jeden trik", jak oklamat D, a generuje stále stejný obrázek.

Příklad: Místo různých tvarů (○, □, +) generuje jen ○ dokola.

Příznaky mode collapse:

2. Pozorování v simulátoru

Zkus různá nastavení Balance a Learning Rate. Zaznamenej, kdy nastane mode collapse.

Nastavení Mode collapse? Poznámka
Balance = +5, LR = 0.5
Balance = 0, LR = 0.1
Balance = -3, LR = 0.2

3. Jak předejít mode collapse?

Strategie v reálných GANech:

6

Klíčové závěry o GAN

~ 30 min

1. Evoluce od perceptronu k GANu

Celá tvá cesta:

  1. MLP Builder: Základy - neurony, váhy, backpropagation
  2. MLP Grayscale: Klasifikace čísel (0-9)
  3. ReLU Lab: Aktivační funkce, nelinearita
  4. CNN: Konvoluce, translační invariance
  5. Autoencoder: Komprese, latentní prostor, rekonstrukce
  6. GAN: Generování nového obsahu pomocí adversariálního učení!

2. Hlavní komponenty GANu

Komponenta Funkce Analogie
Generator (G)
Discriminator (D)
Adversarial Loss

3. Praktické aplikace GANů

Kde se GAN používají v reálném světě?

Aplikace Příklad
Generování tváří
Image-to-Image (pix2pix)
Super-resolution
Style Transfer

4. Od GANu k moderní generativní AI

GAN (2014): První úspěšná generativní architektura
StyleGAN (2018): Fotorealistické tváře, kontrola stylů
Diffusion Models (2020): Stable Diffusion, DALL-E 2
Video Generation (2024): Sora, Gen-2

5. Závěrečná reflexe

Jaký je největší "aha moment" z práce s GANem?

Jak se celá série worksheetů na sebe navazuje?

Co tě nejvíc zaujalo na adversariální filosofii učení?