Historie umělé inteligence (AI) - od Turinga po OpenAI
5. 9. 2024 (BJC) - Přehled důležitých událostí a lidí na poli umělé inteligence od raných prací britského logika Alana Turinga ve 30. letech až po pokroky na přelomu 21. století.
AI je schopnost digitálního počítače nebo počítačem řízeného robota vykonávat úkoly běžně spojené s inteligentními bytostmi. Tento termín se často používá pro projekt vývoje systémů vybavených intelektuálními procesy charakteristickými pro lidi, jako je schopnost uvažovat, objevovat význam, zobecňovat nebo se učit z minulých zkušeností.
Alan Turing a začátek AI - Teoretická práce
Nejčasnější podstatnou práci na poli umělé inteligence provedl v polovině 20. století britský logik a počítačový průkopník Alan Mathison Turing. V roce 1935 popsal abstraktní počítačový stroj, sestávající z neomezené paměti a skeneru, který se pohybuje v paměti tam a zpět, symbol po symbolu, čte, co najde, a píše další symboly. Akce skeneru jsou diktovány programem instrukcí, který je také uložen v paměti ve formě symbolů. Toto je Turingův koncept uloženého programu a implicitně v něm spočívá možnost, že stroj bude pracovat na svém vlastním programu a tak jej upravovat nebo vylepšovat. Turingova koncepce je nyní známá jednoduše jako univerzální Turingův stroj. Všechny moderní počítače jsou v podstatě univerzální Turingovy stroje.
Během druhé světové války byl Turing předním kryptoanalytikem na Government Code and Cypher School v Bletchley Park, Buckinghamshire, Anglie. Turing se bohužel nemohl pustit do projektu stavby elektronického výpočetního stroje s uloženým programem až do ukončení nepřátelských akcí v Evropě v roce 1945. Přesto se během války značně zamyslel nad otázkou strojové inteligence. Jeden z Turingových kolegů v Bletchley Park, Donald Michie (který později založil katedru strojové inteligence a vnímání na Edinburské univerzitě) později připomněl, že Turing často diskutoval o tom, jak by se počítače mohly učit ze zkušeností a také řešit nové problémy pomocí hlavního principu – proces dnes známý jako heuristické řešení problémů.
Turing byl dost možná první, kdo pořádal veřejnou přednášku o počítačové inteligenci (Londýn 1947), když řekl: "Chceme stroj, který se může učit ze zkušeností" a že "možnost nechat stroj měnit své vlastní instrukce k tomu poskytuje mechanismus." V roce 1948 představil mnoho ústředních pojmů AI ve zprávě nazvané "Inteligentní strojní zařízení". Turing však tento dokument nepublikoval a mnoho z jeho myšlenek bylo později znovu objeveno jinými. Jedním z původních Turingových nápadů bylo například trénovat síť umělých neuronů pro provádění specifických úkolů, což je přístup popsaný v sekci Konekcionismus.
Šachy
V Bletchley Park Turing ilustroval své myšlenky o strojové inteligenci odkazem na šachy – užitečný zdroj náročných a jasně definovaných problémů, s nimiž lze testovat navrhované metody řešení problémů. V principu by šachový počítač mohl hrát vyčerpávajícím prohledáváním všech dostupných tahů, ale v praxi je to nemožné, protože by to znamenalo prozkoumat astronomicky velký počet tahů. Heuristika je nezbytná pro vedení užšího a diskriminativnějšího vyhledávání. Ačkoli Turing experimentoval s navrhováním šachových programů, musel se spokojit s pouhou teorií bez reálného nasazení v počítači. První skutečné programy umělé inteligence musely čekat na příchod elektronických digitálních počítačů s uloženým programem.
V roce 1945 Turing předpověděl, že jednoho dne budou počítače vynikajícími šachisty, dokonce lepší, než lidé. O více, než 50 let později, v roce 1997, šachový počítač Deep Blue postavený IBM (International Business Machines Corporation), porazil úřadujícího mistra světa Garryho Kasparova na šest zápasů. Zatímco Turingova předpověď se naplnila, jeho očekávání, že šachové programování přispěje k pochopení toho, jak lidské bytosti myslí, nikoli. Obrovské zlepšení počítačových šachů od dob Turinga lze připsat spíše pokroku v počítačovém inženýrství než pokroku v AI: 256 paralelních procesorů Deep Blue umožnilo prozkoumat 200 milionů možných tahů za sekundu a podívat se dopředu až na 14 tahů hry. Mnozí souhlasí s Noamem Chomskym, lingvistou z Massachusettského technologického institutu (MIT), který zastával názor, že porážka šachového velmistra počítačem je asi tak zajímavá jako buldozer, který vyhrál olympijský závod ve vzpírání.
Turingův test
V roce 1950 Turing obešel tradiční debatu o definici inteligence zavedením praktického testu pro počítačovou inteligenci, který je nyní známý jednoduše jako Turingův test. Turingova testu se účastní tři účastníci: počítač, lidský testující a libovolný člověk. Testující se pokusí určit, který z nich je počítač tím, že klade otázky dalším dvěma účastníkům. Veškerá komunikace probíhá přes klávesnici a displej. Testující může klást otázky tak pronikavé a široké, jak je potřeba, a počítač má dovoleno udělat vše pro to, aby si vynutil špatnou identifikaci. (Počítač může například odpovědět "Ne" jako odpověď na "Jste počítač?" a může následovat požadavek na vynásobení jednoho velkého čísla druhým s dlouhou pauzou a nesprávnou odpovědí.) Člověk naopak musí testujícímu pomoci provést správnou identifikaci. V roli testujícího a tlumočníka hraje řada různých lidí, a pokud dostatečný podíl testujících není schopen rozlišit počítač od člověka, pak (podle zastánců Turingova testu) je počítač považován za inteligentní, myslící entitu.
V roce 1991 zahájil americký filantrop Hugh Loebner každoroční soutěž o Loebnerovu cenu, když prvnímu počítači, který projde Turingovým testem, slíbil 100 000 dolarů a nejlepšímu počítači každoročně uděluje 2 000 dolarů. Žádný program umělé inteligence se však nepřiblížil k tomu, aby prošel nezředěným Turingovým testem. Koncem roku 2022 příchod velkého jazykového modelu ChatGPT znovu podnítil konverzaci o pravděpodobnosti, že byly splněny komponenty Turingova testu. Datový vědec BuzzFeed Max Woolf řekl, že ChatGPT prošel Turingovým testem v prosinci 2022, ale někteří odborníci tvrdí, že ChatGPT neprošel skutečným Turingovým testem, protože při běžném používání ChatGPT často uvádí, že jde o jazykový model.
První milníky v AI - první programy AI
První úspěšný program umělé inteligence napsal v roce 1951 Christopher Strachey, pozdější ředitel Programming Research Group na Oxfordské univerzitě. Stracheyho program dáma (tahy) běžel na počítači Ferranti Mark I na University of Manchester, Anglie. V létě 1952 tento program zvládl hrát kompletní hru dáma při rozumné rychlosti.
Informace o první úspěšné demonstraci strojového učení byla zveřejněna v roce 1952. Shopper, který napsal Anthony Oettinger z University of Cambridge, běžel na počítači EDSAC. Shopperův simulovaný svět byl nákupním centrem s osmi obchody. Když dostal Shopper pokyn ke koupi položky, hledal ji a náhodně navštěvoval obchody, dokud položku nenašel. Během vyhledávání si Shopper zapamatoval několik položek skladovaných v každém navštíveném obchodě (stejně jako lidský nakupující). Při příštím odeslání Shoppera pro stejnou položku nebo pro jinou položku, kterou již našel, půjde okamžitě do správného obchodu. Tato jednoduchá forma učení se nazývá učení nazpaměť.
První program umělé inteligence, který běžel ve Spojených státech, byl také program dáma, napsaný v roce 1952 Arthurem Samuelem pro prototyp IBM 701. Samuel převzal základy Stracheyho programu a v průběhu let jej značně rozšířil. V roce 1955 přidal funkce, které umožnily programu učit se ze zkušeností. Samuel zahrnul mechanismy jak pro učení nazpaměť, tak pro zobecnění. Vylepšení nakonec vedla k tomu, že jeho program vyhrál jednu hru proti bývalému šampiónovi v dámě z Connecticutu v roce 1962.
Evoluční výpočetní technika
Samuelův program dáma byl také pozoruhodný tím, že byl jedním z prvních pokusů o evoluční výpočty (jeho program se "vyvinul" tak, že postavil upravenou kopii proti aktuální nejlepší verzi svého programu, přičemž vítěz se stal novým standardem). Evoluční výpočetní technika obvykle zahrnuje použití nějaké automatické metody generování a vyhodnocování po sobě jdoucích "generací" programu, dokud se nevyvine vysoce zdatné řešení.
Přední zastánce evolučních počítačů John Holland také napsal testovací software pro prototyp počítače IBM 701. Pomohl navrhnout virtuální krysu s umělou neuronovou sítí, která by mohla být vycvičena k procházení bludištěm. Tato práce přesvědčila Hollanda o účinnosti přístupu zdola nahoru k AI, který zahrnuje vytváření neuronových sítí, napodobujících strukturu mozku. Zatímco pokračoval v konzultacích pro IBM, přestěhoval se v roce 1952 na University of Michigan, aby zde získal doktorát z matematiky. Brzy však přešel na nový interdisciplinární program v oblasti počítačů a zpracování informací (později známý jako komunikační věda), který vytvořil Arthur Burks, jeden z stavitelů ENIAC a jeho nástupce EDVAC. Ve své dizertační práci z roku 1959, která byla pravděpodobně prvním doktorátem z informatiky na světě, Holland navrhl nový typ počítače – víceprocesorový počítač – který by každému umělému neuronu v síti přiřadil samostatný procesor (v roce 1985 Daniel Hillis vyřešil inženýrské potíže při sestavení prvního takového počítače, superpočítače Thinking Machines Corporation s 65 536 procesory).
Po promoci nastoupil Holland na fakultu v Michiganu a během příštích čtyř desetiletí řídil většinu výzkumu metod automatizace evolučních výpočtů, což je proces nyní známý pod pojmem genetické algoritmy. Systémy implementované v Hollandově laboratoři zahrnovaly šachový program, modely jednobuněčných biologických organismů a klasifikační systém pro řízení simulované sítě plynovodů. Genetické algoritmy se však již tou dobou neomezují pouze na akademické demonstrace. V jedné důležité praktické aplikaci spolupracuje genetický algoritmus se svědkem trestného činu za účelem vytvoření portrétu pachatele.
Logické uvažování a řešení problémů
Schopnost logického uvažování je důležitým aspektem inteligence a vždy byla hlavním cílem výzkumu AI. Důležitým mezníkem v této oblasti byl program pro prokazování teorémů, který v letech 1955–56 napsali Allen Newell a J. Clifford Shaw z RAND Corporation a Herbert Simon z Carnegie Mellon University. Logický teoretik, jak se tento program stal známým, byl navržen k prokázání teorémů z Principia Mathematica (1910–1913), třísvazkového díla britských filozofů-matematiků Alfreda North Whiteheada a Bertranda Russella. V jednom případě byl důkaz navržený programem elegantnější, než důkaz uvedený v knihách.
Newell, Simon a Shaw pokračovali v psaní výkonnějšího programu General Problem Solver, neboli GPS. První verze GPS běžela v roce 1957 a práce na projektu pokračovaly asi deset let. GPS by mohl vyřešit působivou řadu hádanek pomocí metody pokusu a omylu. Nicméně, jedna kritika GPS a podobných programů, které postrádají jakoukoli schopnost učení, je, že inteligence programu je zcela z podřadná a pochází z libovolných informací, které programátor do programu výslovně zahrne.
Počátačový dialog
Dva z nejznámějších raných programů umělé inteligence, Eliza a Parry, poskytovaly děsivé zdání inteligentní konverzace (podrobnosti obou byly poprvé publikovány v roce 1966). Eliza, kterou napsal Joseph Weizenbaum z MIT's AI Laboratory, simulovala lidského terapeuta. Parry, který napsal psychiatr Kenneth Colby ze Stanfordské univerzity, pak simuloval člověka prožívajícího paranoiu. Psychiatři, kteří byli požádáni, aby rozhodli, zda komunikují s Parrym nebo člověkem trpícím paranoiou, často nebyli schopni říct. Nicméně ani Parryho ani Elizu nebylo možné rozumně označit za inteligentní. Parryho příspěvky do konverzace byly předpřipravené – vytvořené předem programátorem a uložené v paměti počítače. I Eliza se spoléhala na předpřipravené věty a jednoduché programátorské triky.
Programovací jazyky AI
V průběhu své práce na Logic Theorist a GPS vyvinuli Newell, Simon a Shaw svůj Information Processing Language (IPL), počítačový jazyk přizpůsobený pro programování AI. Srdcem IPL byla vysoce flexibilní datová struktura, kterou nazývali seznam. Seznam je jednoduše uspořádaná sekvence položek dat. Některé nebo všechny položky v seznamu mohou samy o sobě být seznamy. Toto schéma vede k bohatě větveným strukturám.
V roce 1960 John McCarthy zkombinoval prvky IPL s lambda kalkulem (formální matematicko-logický systém) a vytvořil programovací jazyk LISP (List Processor), který byl po desetiletí hlavním jazykem pro práci s umělou inteligencí ve Spojených státech, než byl nahrazen v 21. století jazyky jako Python, Java a C++ (samotný lambda kalkul byl vynalezen v roce 1936 princetonským logikem Alonzem Churchem, když zkoumal abstraktní Entscheidungsproblem neboli "rozhodovací problém" pro predikátovou logiku – stejný problém, na který Turing útočil, když vynalezl univerzální Turingův stroj).
Logický programovací jazyk PROLOG (Programmation en Logique) byl vytvořen v roce 1973 Alainem Colmerauerem na univerzitě v Aix-Marseille ve Francii, kde byl jazyk poprvé implementován. PROLOG dále rozvíjel logik Robert Kowalski, člen skupiny AI na univerzitě v Edinburghu. Tento jazyk využívá výkonnou techniku prokazování teorémů známou jako rezoluce, kterou v roce 1963 vynalezl v Argonne National Laboratory americké komise pro atomovou energii v Illinois britský logik Alan Robinson. PROLOG dokáže určit, zda daný příkaz logicky následuje z jiných daných příkazů. Například na základě výroků "Všichni logici jsou racionální" a "Robinson je logik", program PROLOG odpoví kladně na dotaz "Robinson je racionální?" PROLOG byl široce používán pro práci s umělou inteligencí, zejména v Evropě a Japonsku.
Programy mikrosvěta
Aby se vědci vyrovnali s matoucí složitostí skutečného světa, často ignorují méně relevantní detaily. Například fyzici ve svých modelech často ignorují tření a elasticitu. V roce 1970 Marvin Minsky a Seymour Papert z MIT AI Laboratory navrhli, že podobně by se výzkum AI měl zaměřit na vývoj programů, schopných inteligentního chování v jednodušších umělých prostředích, známých jako mikrosvěty. Mnoho výzkumů se zaměřilo na takzvaný blokový svět, který se skládá z barevných bloků různých tvarů a velikostí, seřazených na rovném povrchu.
Prvním úspěchem přístupu mikrosvěta bylo SHRDLU, které napsal Terry Winograd z MIT (podrobnosti o programu byly zveřejněny v roce 1972). SHRDLU ovládalo rameno robota, které fungovalo nad plochým povrchem posetým hracími bloky. Jak rameno, tak bloky byly virtuální. SHRDLU reagoval na příkazy napsané v přirozené angličtině, jako například "Složte prosím všechny červené bloky buď v kostku nebo pyramidu". Program mohl také odpovídat na otázky, týkající se jeho vlastních akcí. Ačkoli bylo SHRDLU zpočátku oslavováno jako velký průlom, Winograd brzy oznámil, že program je ve skutečnosti slepá ulička. Techniky propagované v programu se ukázaly jako nevhodné pro použití v širších, zajímavějších světech. Navíc zdání, které SHRDLU poskytlo porozumění blokovému mikrosvětu a anglických prohlášeních o něm, bylo ve skutečnosti iluzí. SHRDLU neměl tušení, co je červený blok.
Dalším produktem přístupu mikrosvěta byl Shakey, mobilní robot vyvinutý ve Stanford Research Institute Bertramem Raphaelem, Nilsem Nilssonem a dalšími v období 1968–72. Robot obsadil speciálně vybudovaný mikrosvět sestávající ze stěn, dveří a několika jednoduše tvarovaných dřevěných bloků. Každá stěna měla pečlivě natřenou základní desku, která robotovi umožnila "vidět", kde se stěna setkává s podlahou (zjednodušení reality, které je typické pro přístup mikrosvěta). Shakey měl asi tucet základních schopností, jako je TURN, PUSH a CLIMB-RAMP. Kritici poukazovali na velmi zjednodušenou povahu Shakeyova prostředí a zdůrazňovali, že navzdory těmto zjednodušením fungoval Shakey nesnesitelně pomalu. Série akcí, které mohl člověk naplánovat a provést během několika minut, zabrala Shakey dny.
Největším úspěchem přístupu mikrosvěta je typ programu známý jako expertní systém , popsaný v další části.
Expertní systémy
Expertní systémy zabírají typ mikrosvěta – například model lodního nákladového prostoru a jeho nákladu – který je samostatný a relativně nekomplikovaný. U takových systémů umělé inteligence je vynaloženo veškeré úsilí na začlenění všech informací o nějaké úzké oblasti, které by znalec (nebo skupina expertů) znal, takže dobrý expertní systém může často překonat kteréhokoli lidského experta. Existuje mnoho komerčních expertních systémů, včetně programů pro lékařskou diagnostiku, chemickou analýzu, autorizaci úvěrů, finanční řízení, podnikové plánování, směrování finančních dokumentů, průzkum ropy a nerostů, genetické inženýrství, návrh a výroba automobilů, návrh čoček fotoaparátu, návrh počítačových instalací, plánování leteckých linek, umístění nákladu a služby automatické pomoci pro majitele domácích počítačů.
Základními součástmi expertního systému jsou znalostní báze, neboli KB, a inferenční engine. Informace, které mají být uloženy v KB, se získávají rozhovory s odborníky v dané oblasti. Tazatel, neboli znalostní inženýr, organizuje informace získané od expertů do souboru pravidel, obvykle struktury "když-pak". Pravidla tohoto typu se nazývají produkční pravidla. Inferenční engine umožňuje expertnímu systému čerpat srážky z pravidel v KB. Pokud například znalostní báze obsahuje produkční pravidla "jestliže x , pak y " a "pokud y , pak z ", je inferenční stroj schopen odvodit "pokud x , pak z ". Expertní systém se pak může svého uživatele zeptat: "Je x pravda v situaci, kterou zvažujeme?" Pokud je odpověď kladná, systém přistoupí k odvození z .
Některé expertní systémy používají fuzzy logiku. Ve standardní logice existují pouze dvě pravdivostní hodnoty, pravda a nepravda. Tato absolutní přesnost ztěžuje charakterizaci vágních atributů nebo situací (například, kdy přesně se z řídnoucí hlavy vlasů stane plešatá hlava?). Pravidla, která používají lidští experti, často obsahují vágní výrazy, a proto je užitečné, aby inferenční stroj expertního systému použil fuzzy logiku.
DENDRAL
V roce 1965 výzkumník umělé inteligence Edward Feigenbaum a genetik Joshua Lederberg, oba ze Stanfordské univerzity, začali pracovat na heuristickém DENDRAL (později zkráceno jen na DENDRAL), expertním systému pro chemickou analýzu. Látka, která má být analyzována, může být například složitá sloučenina uhlíku, vodíku a dusíku. Na základě spektrografických dat získaných z látky DENDRAL předpokládal molekulární strukturu látky. Výkon DENDRAL konkuroval chemikům expertům a program byl používán v průmyslu i v akademické sféře.
MYCIN
Práce na MYCIN, expertním systému pro léčbu krevních infekcí, začala na Stanfordské univerzitě v roce 1972. MYCIN se snažil diagnostikovat pacienty na základě hlášených symptomů a výsledků lékařských testů. Program by si mohl vyžádat další informace týkající se pacienta a také navrhnout další laboratorní testy, aby dospěl k pravděpodobné diagnóze, po které by doporučil postup léčby. Na požádání MYCIN vysvětlí důvody, které vedly k jeho diagnóze a doporučení. S využitím asi 500 výrobních pravidel fungoval MYCIN na zhruba stejné úrovni kompetence jako lidští specialisté na krevní infekce a spíše než praktičtí lékaři.
Expertní systémy však nemají zdravý rozum ani nechápou limity své odbornosti. Pokud by například MYCIN bylo řečeno, že pacient, který utrpěl střelnou ránu má smrtelné krvácení, program se pokusí diagnostikovat bakteriální příčinu symptomů pacienta. Expertní systémy mohou dosáhnout i absurdní administrativní chyby, jako je předepsání zjevně nesprávného dávkování léku pro pacienta, jehož údaje o hmotnosti a věku byly náhodně transponovány.
Projekt CYC
CYC je velký experiment v symbolické AI. Projekt začal v roce 1984 pod záštitou Microelectronics and Computer Technology Corporation, konsorcia výrobců počítačů, polovodičů a elektroniky. V roce 1995 Douglas Lenat, ředitel projektu CYC, oddělil projekt pod názvem Cycorp, Inc. se sídlem v Austinu v Texasu. Nejambicióznějším cílem Cycorpu bylo vybudovat KB obsahující významné procento rozumných znalostí lidské bytosti. Do CYC byly zakódovány miliony tvrzení zdravého rozumu nebo pravidel. Očekávalo se, že toto "kritické množství" umožní samotnému systému extrahovat další pravidla přímo z běžné prózy a nakonec poslouží jako základ pro budoucí generace expertních systémů.
S pouze zlomkem zkompilovaného KB se zdravým rozumem mohl CYC vyvodit závěry, které porazily jednodušší systémy. Například CYC mohl vyvodit "Garcia je mokrá" z výroku "Garcia dokončuje maratonský běh" tím, že uplatní svá pravidla, že běh maratonu s sebou nese velkou námahu, že se lidé při vysoké námaze potí a že když něco se potí, je to mokré. Mezi zbývající úskalí patří vyhledávání a řešení problémů – například jak automaticky vyhledávat v KB informace, které jsou relevantní pro daný problém. Výzkumníci umělé inteligence označují problém aktualizace, vyhledávání a jiné manipulace s velkou strukturou symbolů v realistickém čase za problém rámce. Někteří kritici symbolické umělé inteligence se domnívají, že problém s rámcem je z velké části neřešitelný, a tak tvrdí, že symbolický přístup nikdy nepřinese skutečně inteligentní systémy. Je možné, že například CYC podlehne problému s rámem dlouho předtím, než systém dosáhne lidské úrovně znalostí.
Konekcionismus
Konekcionismus nebo neuronlike computing se vyvinul z pokusů porozumět tomu, jak funguje lidský mozek na nervové úrovni a zejména - jak se lidé učí a pamatují. V roce 1943 neurofyziolog Warren McCulloch z University of Illinois a matematik Walter Pitts z University of Chicago publikovali vlivné pojednání o neuronových sítích a automatech, podle kterého je každý neuron v mozku jednoduchý digitální procesor a mozek jako celek je forma výpočetního stroje. Jak se následně vyjádřil McCulloch: "To, co jsme si mysleli, že děláme (a myslím, že se nám to docela povedlo), bylo zacházet s mozkem jako s Turingovým strojem."
Vytvoření umělé neuronové sítě
Teprve v roce 1954 se však Belmontu Farleymu a Wesleymu Clarkovi z MIT podařilo spustit první umělou neuronovou síť — i když omezenou pamětí počítače na maximálně 128 neuronů. Byli schopni trénovat své sítě, aby rozpoznávaly jednoduché vzorce. Kromě toho zjistili, že náhodné zničení až 10 procent neuronů v trénované síti neovlivnilo výkon sítě – což je vlastnost, která připomíná schopnost mozku tolerovat omezené poškození způsobené operací, nehodou nebo nemocí.
Řez umělé neuronové sítě V části umělé neuronové sítě zobrazené na obrázku je hmotnost nebo síla každého vstupu indikována relativní velikostí jeho spojení. Spouštěcí práh pro výstupní neuron N je v tomto příkladu 4. Proto je N klidový, pokud není přijata kombinace vstupních signálů z W , X , Y a Z , která přesahuje váhu 4.
Jednoduchá neuronová síť znázorněná na obrázku ilustruje ústřední myšlenky konekcionismu. Čtyři z pěti neuronů sítě jsou pro vstup a pátý – ke kterému je připojen každý z ostatních – je pro výstup. Každý z neuronů buď střílí (1), nebo nestřílí (0). Každé spojení vedoucí k N výstupnímu neuronu, má "váhu". To, co se nazývá celkový vážený vstup do N, se vypočítá sečtením vah všech spojení vedoucích k N z neuronů, které střílejí. Předpokládejme například, že pouze dva ze vstupních neuronů, X a Y, střílejí. Protože hmotnost spojení z X do N je 1,5 a váha spojení z Y do N je 2, vyplývá, že celkový vážený vstup do N je 3,5. Jak je znázorněno na obrázku, N má práh spouštění 4. To znamená, že pokud se celkový vážený vstup N rovná nebo překračuje 4, pak N vystřelí, jinak nestřílí. Takže například N se nespustí, pokud jedinými vstupními neurony, které se mají vypálit, jsou X a Y, ale N vystřelí, pokud všechny X , Y a Z vystřelí.
Školení sítě zahrnuje dva kroky. Nejprve externí agent zadá vzor a pozoruje chování N. Za druhé, agent upraví váhy připojení v souladu s pravidly:
Pokud je skutečný výstup 0 a požadovaný výstup je 1, zvyšte o malou pevnou hodnotu váhu každého spojení vedoucího k N z neuronů, které spouštějí (takže je pravděpodobnější, že N vystřelí příště, až bude síti přiděleno stejný vzor).
Pokud je skutečný výstup 1 a požadovaný výstup je 0, snižte o stejnou malou hodnotu váhu každého spojení vedoucího k výstupnímu neuronu z neuronů, které spouštějí (takže je méně pravděpodobné, že výstupní neuron vystřelí příště síti je daný vzor jako vstup).
Externí agent – ve skutečnosti počítačový program – prochází tímto dvoukrokovým postupem s každým vzorem v trénovací sadě, která se pak několikrát opakuje. Během těchto mnoha opakování se vytvoří vzor vah připojení, který umožňuje síti správně reagovat na každý vzor. Pozoruhodné je, že proces učení je zcela mechanický a nevyžaduje žádné lidské zásahy nebo úpravy. Váhy spojení se automaticky zvyšují nebo snižují o konstantní hodnotu a přesně stejný postup učení platí pro různé úlohy.
Perceptrony
V roce 1957 Frank Rosenblatt z Cornell Aeronautical Laboratory na Cornell University v Ithace, New York, začal zkoumat umělé neuronové sítě, které nazval perceptrony. Významně přispěl do oblasti umělé inteligence, a to jak prostřednictvím experimentálního zkoumání vlastností neuronových sítí (pomocí počítačových simulací), tak prostřednictvím podrobné matematické analýzy. Rosenblatt byl charismatický komunikátor a ve Spojených státech se brzy objevilo mnoho výzkumných skupin zabývajících se perceptrony. Rosenblatt a jeho následovníci nazvali svůj přístup konekcionistickým, aby zdůraznili důležitost učení o vytváření a modifikaci spojení mezi neurony. Moderní výzkumníci tento termín přijali.
Jedním z Rosenblattových příspěvků bylo zobecnění trénovacího postupu, který Farley a Clark aplikovali pouze na dvouvrstvé sítě, aby bylo možné tento postup aplikovat na vícevrstvé sítě. Rosenblatt k popisu své metody použil frázi "zpětně se šířící oprava chyb". Metoda s podstatnými vylepšeními a rozšířeními mnoha vědců a termín back-propagation se nyní v konekcionismu běžně používají.
Konjugace sloves
V jednom slavném konekcionistickém experimentu provedeném na Kalifornské univerzitě v San Diegu (publikováno v roce 1986) David Rumelhart a James McClelland vycvičili síť 920 umělých neuronů, uspořádaných do dvou vrstev po 460 neuronech, aby vytvořily minulé časy anglických sloves. Kořenové formy sloves – jako přijít, podívat se a spát – byly předloženy jedné vrstvě neuronů, vstupní vrstvě. Dohlížecí počítačový program pozoroval rozdíl mezi skutečnou odezvou na vrstvě výstupních neuronů a požadovanou odezvou – řekněme, která přišla – a poté mechanicky upravil spojení v celé síti v souladu s postupem popsaným výše, aby síť mírně zatlačila směr správné reakce. Do sítě bylo postupně prezentováno asi 400 různých sloves a po každé prezentaci byla upravena spojení. Celý tento postup byl opakován asi 200krát za použití stejných sloves, načež síť dokázala správně vytvořit minulý čas mnoha neznámých sloves i původních sloves. Například, když byla poprvé prezentována se slovem střežit (guard), síť reagovala - střeženě. Toto je pozoruhodný příklad učení zahrnujícího zobecnění (někdy však byly zvláštnosti angličtiny pro síť příliš velké a vytvořila se slova podivných tvarů).
Dalším názvem pro konekcionismus je paralelní distribuované zpracování, které zdůrazňuje dvě důležité vlastnosti. Za prvé, velké množství relativně jednoduchých procesorů – neuronů – pracuje paralelně. Za druhé, neuronové sítě ukládají informace distribuovaným způsobem, přičemž každé jednotlivé spojení se účastní ukládání mnoha různých položek informací. Know-how, které umožnilo síti minulého času vytvořit například weep from weep, nebylo uloženo na jednom konkrétním místě v síti, ale bylo rozprostřeno do celého vzoru závaží spojení, které bylo vytvořeno během tréninku. Zdá se, že lidský mozek také ukládá informace distribuovaným způsobem a konekcionistický výzkum přispívá k pokusům pochopit, jak to dělá.
Jiné neuronové sítě
Další práce na neuronových počítačích zahrnují následující:
Strojové vidění - sítě dokážou rozpoznat tváře a další objekty z vizuálních dat. Neuronové sítě dokážou například rozlišit, zda je zvíře na obrázku kočka nebo pes. Takové sítě mohou také odlišit skupinu lidí jako samostatné jedince.
Jazykové zpracování - neuronové sítě jsou schopny převést ručně psaný a strojopisný materiál na elektronický text. Neuronové sítě také převádějí řeč na tištěný text a tištěný text na řeč.
Finanční analýza - neuronové sítě se stále více používají pro hodnocení úvěrového rizika, oceňování nemovitostí, predikci bankrotu, predikci ceny akcií a další obchodní aplikace.
Medicína - lékařské aplikace zahrnují detekci plicních uzlů a srdečních arytmií a predikci nežádoucích reakcí na léky.
Telekomunikace - telekomunikační aplikace neuronových sítí zahrnují ovládání telefonních spojovacích sítí a potlačení ozvěny na satelitních spojích.
Nová AI - nové základy
Přístupu, známému jako nouvelle AI, byl průkopníkem v MIT AI Laboratory Australan Rodney Brooks během druhé poloviny 80. let. Nouvelle AI se distancuje od silné umělé inteligence s důrazem na výkon na lidské úrovni ve prospěch relativně skromného cíle výkonu na úrovni hmyzu. Na velmi základní úrovni nová umělá inteligence odmítá spoléhání se symbolické umělé inteligence na vytváření interních modelů reality, jako jsou modely popsané v části Programy mikrosvěta. Praktici nové umělé inteligence tvrdí, že skutečná inteligence zahrnuje schopnost fungovat v reálném prostředí.
Ústřední myšlenkou nové umělé inteligence je, že inteligence, vyjádřená komplexním chováním, "vzniká" z interakce několika jednoduchých chování. Například robot, jehož jednoduché chování zahrnuje vyhýbání se kolizi a pohyb směrem k pohybujícímu se objektu bude vypadat, že sleduje objekt a zastaví se, kdykoli se dostane příliš blízko.
Jedním slavným příkladem nové umělé inteligence byl Brooksův robot Herbert (pojmenovaný po Herbertu Simonovi), jehož prostředím byly rušné kanceláře MIT AI Laboratory. Herbert hledal na stolech a stolech prázdné plechovky od limonády, které sebral a odnesl. Zdánlivě cílené chování robota vyplynulo z interakce asi 15 jednoduchých chování.
Nouvelle AI se vyhýbá problému rámce popsanému v části Projekt CYC . Nouvelle systémy neobsahují složitý symbolický model svého prostředí. Místo toho jsou informace vynechány, dokud je systém nebude potřebovat. Nový systém neustále odkazuje spíše na své senzory než na vnitřní model světa: "čte" z vnějšího světa jakékoli informace, které potřebuje, přesně v ten čas, kdy je potřebuje (jak tvrdil Brooks, svět je svým vlastním nejlepším modelem – vždy přesně aktuální a kompletní v každém detailu).
Tradiční umělá inteligence se vesměs pokoušela vybudovat netělesné inteligence, jejichž jediná interakce se světem byla nepřímá (například CYC). Nouvelle AI se na druhé straně pokouší vybudovat vtělené inteligence umístěné v reálném světě – metoda, která se stala známou jako situovaný přístup. Brooks souhlasně citoval z krátkých náčrtů, které Turing poskytl v letech 1948 a 1950 situovaného přístupu. Když Turing vybaví stroj "nejlepšími smyslovými orgány, které lze za peníze koupit", mohl by se stroj naučit "rozumět a mluvit anglicky" procesem, který by "se řídil normálním učením dítěte". Turing to postavil do kontrastu s přístupem k umělé inteligenci, která se zaměřuje na abstraktní činnosti, jako je hraní šachů. Prosazoval, aby byly sledovány oba přístupy, ale až do nové AI byla orientovanému přístupu věnována malá pozornost.
Situovaný přístup předpokládaly i spisy filozofa Berta Dreyfuse z Kalifornské univerzity v Berkeley. Začátkem 60. let 20. století Dreyfus oponoval hypotéze systému fyzických symbolů a tvrdil, že inteligentní chování nelze zcela zachytit pomocí symbolických popisů. Jako alternativu Dreyfus obhajoval pohled na inteligenci, který zdůrazňoval potřebu těla, které by se mohlo pohybovat a interagovat přímo s hmatatelnými fyzickými objekty. Dreyfus, který byl zastánci AI odsuzován, je nyní považován za proroka situovaného přístupu.
Kritici nové umělé inteligence poukazují na to, že se nepodařilo vytvořit systém, který by vykazoval něco jako složitost chování skutečného hmyzu. Návrhy vědců z konce 20. století, že jejich nové systémy budou brzy vědomé a budou mít jazyk, byly zcela předčasné.
S laskavým díkem převzato od BJ Copelanda - Profesora filozofie a ředitele Turingova archivu pro historii výpočetní techniky, University of Canterbury, Christchurch, Nový Zéland.
- (BJC, mai)