Badatelský deník inženýra AI

1

Od Autoencoderu ke GANu

~ 45 min

1. Návaznost na předchozí kapitoly

V předchozích kapitolách jsi pracoval/a s různými typy sítí. GAN je kombinací všeho, co jsi se naučil/a!

Typ sítě	Co dělá?	Jak souvisí s GAN?
MLP Klasifikátor	Obrázek → Třída (0-9)
Autoencoder Decoder	Latent → Rekonstrukce
CNN	Detekce rysů

2. Klíčový rozdíl: Autoencoder vs. GAN

Autoencoder Decoder:
Vstup: Latentní vektor z ENCODERU (naučený z originálu)
Cíl: Rekonstruovat originální obrázek

GAN Generator:
Vstup: NÁHODNÝ ŠUM z normálního rozdělení
Cíl: Vytvořit nový obrázek, který vypadá realisticky

Proč je to revoluční?

Decoder potřeboval existující obrázek → rekonstruoval

Generator nepotřebuje nic → tvoří od nuly!

3. Architektura GANu

🎨

Generator

Šum → Fake obrázek

VS

🔍

Discriminator

Obrázek → Real/Fake?

Doplň dimenze:

Generator: neurons (latent) → ... → pixels (8×8)
Discriminator: pixels → ... → neuron (Real/Fake)

2

Adversariální trénink - "Hra dvou hráčů"

~ 45 min

1. Analogie: Padělatel vs. Detektiv

                Generator = Padělatel (falzifikátor bankovek)

                → Snaží se vytvořit falešné peníze, které vypadají jako pravé

                Discriminator = Detektiv (expert na paděláky)

                → Snaží se rozpoznat pravé od falešných

Co se stane, když trénujeme obě sítě najednou?

G vytvoří falešný obrázek
D ho zkontroluje: "To je fake!"
G se poučí: "Musím to udělat lépe..."
D se taky poučí: "Musím být pozornější..."

Výsledek:

2. Min-Max hra

Generator minimalizuje: D(G(z)) → 0 (chce, aby D si myslel, že fake je real)
Discriminator maximalizuje: D(real) → 1, D(fake) → 0

→ Konflikt! Jeden úspěch = druhého neúspěch

V ideálním stavu:

G vždy vyhrává (100% úspěch)

D vždy vyhrává (100% přesnost)

Nashova rovnováha: oba na ~50%

Vysvětlení:

3. Fáze tréninku

V simulátoru sleduj, jak se mění "G Score" a "D Score" během tréninku.

🌱

Začátek

G: šum, D: 100%

⚔️

Boj

G se zlepšuje

⚖️

Rovnováha

Oba ~50%

💥

Kolaps

Mode collapse

Kterou fázi jsi pozoroval/a v simulátoru po 100 krocích?

3

Kvalita generovaných obrázků

~ 45 min

1. Pozorování vývoje

Použij tlačítko "🎲 Generovat nové" v pravém panelu. Sleduj, jak se kvalita mění s tréninkem.

Krok tréninku	Jak vypadají generované obrázky?	D Score (%)
0 (začátek)
50
200
500

2. Real vs. Fake porovnání

Sleduj sekci "Real vs Fake porovnání" (zelené = real, růžové = fake).

Test: Dokážeš ty sám/sama rozlišit, které obrázky jsou reálné a které generované?

Pozice v gridu	Tvůj tip (Real/Fake)	Skutečnost	Správně?
1. řádek, 1. sloupec
1. řádek, 3. sloupec
2. řádek, 2. sloupec

Úspěšnost: / 3

3. Variabilita generovaného obsahu

Otázka: Když generuješ 16 obrázků, jsou všechny různé nebo podobné?

Proč je variabilita důležitá?

Pokud G generuje stále to samé → mode collapse

Dobrý GAN vytváří různé, ale realistické varianty

4

Balance - Rovnováha sil

~ 45 min

1. Význam balance parametru

                Balance slider (-5 až +5) řídí, která síť se trénuje více:

                ◀ -5: D silnější | 0: vyrovnané | +5: G silnější ▶

2. Experimenty s Balance

Pro každý pokus: Reset vah, nastav Balance, trénuj 300 kroků.

Balance	G Loss (finální)	D Loss (finální)	Kvalita obrázků
-5 (D silnější)
0 (vyrovnané)
+5 (G silnější)

3. Co se děje při nevyváženosti?

Když je D příliš silný:

Když je G příliš silný:

4. Grafická analýza Loss

Zakresli ideální průběh Loss funkcí (G Loss = fialová, D Loss = růžová):

Interpretace: V ideálním případě by Loss obou sítí měl:

Klesat k nule

Konvergovat k podobné hodnotě (~0.5-0.7)

Růst neomezeně

5

Mode Collapse - Když GAN selže

~ 30 min

1. Co je mode collapse?

Mode Collapse: G objeví "jeden trik", jak oklamat D, a generuje stále stejný obrázek.

Příklad: Místo různých tvarů (○, □, +) generuje jen ○ dokola.

Příznaky mode collapse:

Všechny generované obrázky vypadají stejně

G Loss je velmi nízký (G "vyhrává" snadno)

Nízká diverzita výstupu

2. Pozorování v simulátoru

Zkus různá nastavení Balance a Learning Rate. Zaznamenej, kdy nastane mode collapse.

Nastavení	Mode collapse?	Poznámka
Balance = +5, LR = 0.5
Balance = 0, LR = 0.1
Balance = -3, LR = 0.2

3. Jak předejít mode collapse?

Strategie v reálných GANech:

6

Klíčové závěry o GAN

~ 30 min

1. Evoluce od perceptronu k GANu

Celá tvá cesta:

MLP Builder: Základy - neurony, váhy, backpropagation
MLP Grayscale: Klasifikace čísel (0-9)
ReLU Lab: Aktivační funkce, nelinearita
CNN: Konvoluce, translační invariance
Autoencoder: Komprese, latentní prostor, rekonstrukce
GAN: Generování nového obsahu pomocí adversariálního učení!

2. Hlavní komponenty GANu

Komponenta	Funkce	Analogie
Generator (G)
Discriminator (D)
Adversarial Loss

3. Praktické aplikace GANů

Kde se GAN používají v reálném světě?

Aplikace	Příklad
Generování tváří
Image-to-Image (pix2pix)
Super-resolution
Style Transfer

4. Od GANu k moderní generativní AI

GAN (2014): První úspěšná generativní architektura
StyleGAN (2018): Fotorealistické tváře, kontrola stylů
Diffusion Models (2020): Stable Diffusion, DALL-E 2
Video Generation (2024): Sora, Gen-2

5. Závěrečná reflexe

Jaký je největší "aha moment" z práce s GANem?

Jak se celá série worksheetů na sebe navazuje?

Co tě nejvíc zaujalo na adversariální filosofii učení?