Badatelský deník inženýra AI

1

Co je ReLU?

~ 30 min

1. Definice aktivační funkce

Scénář: "1. Základní neuron (Linear)" → přepni na ReLU a pak na Linear.

ReLU (Rectified Linear Unit):
f(x) = max(0, x)

Linear:
f(x) = x

Doplň hodnoty: Co vrátí ReLU a Linear pro tyto vstupy?

Vstup (x)	ReLU výstup	Linear výstup
-2.0
0.0
1.5

2. Grafické pochopení

Úkol: Táhni bodem v simulátoru (režim "Jeden neuron"). Sleduj hodnoty "Před aktivací (z)" a "Po aktivaci (a)".

Pozorování: Kdy je výstup ReLU neuronu roven nule?

Když z < 0 (neuron "vypnut" )

Když z > 0 (neuron "zapnut")

Vždy

3. Vizuální rozdíl

Nakresli hranici aktivace: Jak vypadá hranice (kde neuron přechází z 0 na aktivní) pro ReLU vs. Linear?

ReLU

Linear

Popis rozdílu:

2

Dead ReLU - Mrtvý neuron

~ 30 min

1. Vytvoření mrtvého neuronu

Scénář: "3. Mrtvý neuron (Dead ReLU)". Nebo nastav práh (threshold) na vysokou hodnotu (např. 1.5).

Pozorování: Při vysokém prahu (threshold > 1) se neuron aktivuje:

Téměř nikdy / v malé oblasti

Všude

Pouze v záporné oblasti

2. Proč je to problém?

                Dead ReLU: Neuron, který pro většinu vstupů vrací 0. Nikdy se neaktivuje → nepřispívá

                k učení → je "mrtvý".

V reálné síti: Dead ReLU neurony vznikají, když:

Learning rate je příliš vysoký (velké skoky vah)

Váhy neuronu se dostaly do oblasti, kde z je vždy záporné

Špatná inicializace vah

3. Experimentální ověření

Threshold (práh)	Velikost aktivní oblasti	Stav neuronu
-1.0
0.0
1.5

Závěr: Jaký práh je optimální pro zdravý neuron?

3

Sparsita - Selektivní aktivace

~ 30 min

1. Vrstva neuronů

Režim: "Vrstva neuronů (sparsita)". Nastav 16 neuronů.

Sleduj: Kolik neuronů je aktivních (svítí) v různých oblastech prostoru?

Pozice bodu	Počet aktivních neuronů (z 16)	% Sparsity (mrtvých)
Levý horní roh
Střed
Pravý dolní roh

2. Význam sparsity

                Sparsita = selektivita: Ne všechny neurony reagují na všechny vstupy. Každý neuron je

                "specialista" na určitý vzor.

Hypotéza: Sparsita v neuronových sítích je:

VÝHODA - efektivita, interpretovatelnost

NEVÝHODA - ztráta informace

OBOJÍ - záleží na kontextu

Zdůvodnění:

3. Porovnání aktivací

Přepni mezi ReLU a Linear. Jak mění aktivace?

Aktivační funkce	Počet aktivních (> 0.1)	Charakter
ReLU
Linear

4

Hloubka - Dvě vrstvy ReLU

~ 30 min

1. Nelineární kompozice

Režim: "Dvě vrstvy (hloubka)". Nastav 8 skrytých neuronů.

Pozorování: Jak vypadá hranice aktivace (decision boundary)?

Přímka (lineární)

Lomená čára (piecewise linear)

Křivka (hladká)

2. Nákres hranice

Zakresli přibližný tvar hranice pro dvě vrstvy ReLU (scénář "5. Lomená hranice"):

3. Teorie: Síla hloubky

1 vrstva ReLU → může vytvořit pouze jednu přímku
2 vrstvy ReLU → může vytvořit lomenou čáru (polygon)
N vrstev ReLU → může aproximovat libovolnou funkci

Co se stane, když přepneš obě vrstvy na Linear?

Hranice zůstane lomená

Hranice se zjednoduší na přímku

Vysvětlení:

4. Experimenty s komplexitou

Počet skrytých neuronů	Počet "zalomení" hranice	Poznámka
4
8
16

5

Klíčové závěry o ReLU

~ 20 min

1. Proč ReLU místo Sigmoid?

V minulosti se používala aktivace Sigmoid σ(x) = 1/(1+e^-x). ReLU ji nahradilo. Proč?

Aspekt	Sigmoid	ReLU
Výpočetní náročnost
Gradient pro velká x
Sparsita

2. Problémy ReLU

Co jsi identifikoval/a jako nevýhody ReLU?

Dead ReLU - neurony mohou "umřít"

Není centrovaná kolem 0 (výstup je vždy ≥ 0)

Gradient je 0 pro záporné vstupy

3. Varianty ReLU

Leaky ReLU: f(x) = max(0.01x, x)
→ Místo 0 pro záporné x používá malou zápornou hodnotu

ELU (Exponential Linear Unit): f(x) = x if x>0, else α(e^x - 1)
→ Hladší pro záporné hodnoty

Jak Leaky ReLU řeší problém Dead ReLU?

4. Praktický význam

V kterých situacích je ReLU nenahraditelné?

Hluboké sítě (Deep Learning) - rychlé gradienty

Konvoluční sítě (CNN) - detekce přítomnosti features

Sparse reprezentace - efektivní paměť

5. Závěrečná reflexe

Jaký je největší "aha moment" z práce s ReLU Lab?

Jak ReLU souvisí s tím, co jsme dělali v MLP Builder / Grayscale?