OpenAI je nezisková výzkumná organizace v oblasti umělé inteligence, jejíž spin-offy a produkty budou pravděpodobně patřit mezi nejziskovější subjekty světa. V březnu vydala GPT-4, novou generaci svého jazykového modelu, na kterém stojí třeba proslulý textový generátor ChatGPT nebo nová verze vyhledávače Bing.

GPT je zkratka pro Generative Pre-trained Transformer. A Transformer je název algoritmu v srdci tohoto modelu. Pre-trained odkazuje na vzdělání modelu pomocí masivního množství textu, který ho učí základní vzorce a vztahy jazyka – zkrátka ho učí rozumět světu.

Generativní znamená, že umělá inteligence může z této báze znalostí vytvářet nové texty a myšlenky, skrze které pak odborná veřejnost (a nejen ona) posuzuje, jak „chytrý“ daný model je.

Jeho nejnovější generaci vyhodnotila OpenAI na základě simulací zkoušek určených lidem: například Uniform Bar Examination a LSAT pro právníky. GPT-4 může složit advokátní zkoušku v devadesátém percentilu, zatímco předchozí model se potýkal s problémy v desátém percentilu.

V pokročilém testu somilérské teorie si čtvrtá generace vedla dokonce lépe než sedmdesát sedm procent účastníků. Prošel zkouškami Introductory Sommelier, Certified Sommelier a Advanced Sommelier v příslušných poměrech devadesát dva, osmdesát šest a sedmdesát sedm procent. To jsou ohromující výsledky – nejen s ohledem na výstupy, ale i na rychlé tempo pokroku.

Vzhledem k tomu, že mnoho existujících benchmarků v oblasti strojového učení je v angličtině, přeložila OpenAI benchmark MMLU, sadu 14 000 problémů s výběrem ze sedmapadesáti předmětů, do různých jazyků. Výsledky byly stejně působivé: překonaly anglický výkon GPT-3.5 a dalších velkých jazykových modelů (Large Language Models, LLM) ve většině jazyků – včetně těch s malým množstvím zdrojů typu lotyšštiny nebo svahilštiny!

Zkrátka se ukázalo, že GPT-4 dosáhl lidské výkonnosti v různých profesionálních a akademických měřítkách. A v sadě tradičních oborových benchmarků překonává jak předchozí LLM, tak většinu nejmodernějších systémů.

Jaký závěr si z toho logicky odvodit? Jeden vidím rovnou: zkoušky jako způsob měření znalostí jsou oficiálně zastaralé. V žádném případě tím nechci říct, že můžeme přestat s výukou tvrdých dovedností na školách, právě naopak – je čas je obohatit o otevřené a tvůrčí způsoby nejen výuky, ale i hodnocení pokroku.

Dovednosti naší budoucnosti již nejsou spojeny pouze s memorováním faktů.

V mnoha předmětech včetně matematiky existuje řada úžasných interaktivních kurikulárních obohacení, ale pokud je konečný výsledek měřen oproti multiple-choice testu, není to trochu nevyvážené?

Dovednosti naší budoucnosti již nejsou spojeny pouze s memorováním faktů, vytvářením obsahu, nebo dokonce učením jazyků. Dovednosti, které nám zajistí relevanci a zbaví nás strachu z nástupu nových technologií, se nově točí kolem schopností klást správné otázky a kriticky myslet.

OpenAI zahájila iniciativu OpenAIEvals, referenční rámec pro hodnocení velkých jazykových modelů, a já se domnívám, že bychom se tímto přístupem mohli inspirovat i obecně ve vzdělávacím sektoru.

Skutečný multidisciplinární přístup a inspirace nicméně vyžadují otevřenost a výměnu myšlenek. To ale v případě umělé inteligence zabere čas, protože OpenAI ve své bezmála stostránkové doprovodné dokumentaci hrdě nezveřejnila nic o trénovací sadě pro GPT-4.

Newyorský profesor Gary Marcus fenomén označil za „nový precedent pro předstírání, že sdílení má vědecký základ, protože nevíme, jak je model velký, jaká je jeho architektura, ani kolik energie bylo spotřebováno a na čem byl trénován“.

Co ale víme určitě, je skutečnost, že GPT-4, stejně jako všechny velké jazykové modely umělé inteligence, dělá chyby – takzvané halucinace.

Příklad „halucinace“, chybného výstupu vygenerovaného umělou inteligencí

Halucinace se nevyhýbají experimentálnímu chatbotovi Bard od společnosti Google, ani Bingu od společnosti Microsoft. Ten například po dotázaní na klíčové poznatky z finanční zprávy společnosti Gap přišel s nesprávně označenými nebo zcela smyšlenými čísly.

„Potřebujeme vytvořit motor uvažování (v originále reasoning engine, pozn. red.), nikoli databázi faktů. Velké jazykové modely mohou také fungovat jako databáze, ale co po nich skutečně chceme, je blíže ke schopnosti uvažovat, nikoli memorovat,“ připomíná Sam Altman, šéf OpenAI. Pro databázi je halucinace naprostým selháním, a pokud uvažování definujeme jako získávání platných závěrů ze známých faktů, GPT-4 často selhává.

Vzniká jakýsi odborný pastiš, napodobenina, na jejímž základě čelíme riziku dezinformací ve velkém měřítku. GPT-4 napodobuje odbornou odpověď, ale může obsahovat chyby – dost možná proto, že jazykové modely jsou prostě špatně vybaveny k pravdivosti, věcnosti, spolehlivosti a nezaujatosti.

GPT-4 obecně postrádá znalosti o událostech, které se staly po ukončení sběru jejích dat, a ze svých zkušeností se nepoučí. Někdy se může dopustit jednoduchých úvah nebo faktických chyb, jindy může být příliš důvěřivá vůči zjevně nepravdivým vstupům uživatele. A stejně jako lidé může selhat například v zavedení bezpečnostních zranitelností do kódu, který na základě vstupů píše.

Google už před dvěma lety dospěl k závěru, že nasazení systému podobného ChatGPT na své vyhledávání by znamenalo vysoké „reputační riziko“ a vyšší náklady v případě, že by se „něco pokazilo“, protože lidé „musí důvěřovat odpovědím, které od nás dostanou“.

Poslední dekádu pokroku v umělé inteligenci lze z velké části shrnout jedním slovem: škálování. Éra hlubokého učení, která začala kolem roku 2010, byla svědkem pokračujícího nárůstu velikosti nejmodernějších modelů.

Jeho urychlení v posledních letech vedlo mnohé k víře v „hypotézu škálování umělé inteligence“. Prosadila se myšlenka, že více výpočetních zdrojů a tréninkových dat je nejlepší cestou k dosažení dlouhodobých cílů oboru.

Jenže jakkoli je GPT-4 nejobdivuhodnější výsledek tohoto směru vývoje, k vítězství hypotézy o škálování nepřispívá. Limity spolehlivosti a interpretovatelnosti zůstávají v podstatě stejné jako dříve. Díky úspěchu ChatGPT u veřejnosti nicméně odstartovala zásadní fúze, k níž dochází mezi datovými a humanitními vědami.

Úspěšný prompting, tedy formulace požadavků ať už pro DALL-E, GPT-3, nebo jakýkoli obrazový a jazykový model řízený algoritmem, bude vyžadovat nejen inženýrské porozumění strojovému učení. Náhle jsou ve hře znalosti dějin umění, literatury nebo knihovnictví.

GPT-4 je obrovským skokem pro komerční aplikace umělé inteligence a velkým budíčkem pro náš přístup ke vzdělávání a pracovním dovednostem. V otázkách výzkumu ale představuje naopak spíš krůček – staví nás do špatné pozice pro pochopení a předpovídání úspěchů a neúspěchů generativní umělé inteligence, a do ještě horší ohledně souvisejících společenských rizik jejího širokého přijetí.

Ezra Klein ve svém článku pro The New York Times napsal, že se musí stát jedna ze dvou věcí. „Lidstvo potřebuje urychlit své přizpůsobení se těmto technologiím, nebo musí být učiněno společné, vynutitelné rozhodnutí, které zpomalí jejich vývoj. A ani dělat obojí najednou nemusí stačit.“

Autorka je členkou letošního výběru Forbes 30 pod 30.