Psal se rok 2016, když Microsoft spustil chatbota Tay, který se učil na základě příspěvků uživatelů Twitteru (dnes sociální sítě X). Tipnete si, jak dlouho modelu trvalo, než přebral chování odpozorované v tweetech a komentářích?
Stačilo méně než den a profil TayTweets začal psát o genocidě, budování zdí mezi USA a Mexikem a opěvoval konspirační teorie. Microsoft projekt rázem ukončil, protože opravit tento generátor jednoduše nešlo.
Modely umělé inteligence (AI) jsou z podstaty věci lhostejné k pravdě. Každý generativní výstup závisí pouze na datech a faktech zahrnutých v obsahu, na kterém byly neuronové sítě těchto nástrojů trénovány. A pokud data obsahovala například stereotypy, diskriminaci či nenávistný jazyk, tak se to s jistotou promítne do všech budoucích výstupů.
Reprodukce stereotypů, podjatost (takzvaný „bias“) výstupu, nenávistný jazyk i další problematické chování ale u jazykových modelů můžeme měřit. Stačí využít balík předpřipravených dat obsahujících daný fenomén, což je technika, kterou vědecké hlasy na tento fenomén upozorňují.
Autoři skutečně velkých jazykových modelů si jsou výše uvedených slabin vědomi a snaží se jim aktivně předcházet. Ne vždy se to však daří.
Protože výstupy jazykového modelu jsou jen tak kvalitní, jako data, pomocí kterých byl vytvořen, autoři v jednotlivých fázích trénování modelů usilují o vyvažování obsahu tréninkových datasetů. U open source modelů lze zjistit, na čem byl model trénován, abychom si udělali představu, jaké stereotypy může produkovat. Problém vidím u closed source modelů.
Stereotypy jsou totiž vlastní i lidem, kteří modely vytvářejí, takže open source vnímám jako vhodný nástroj pro zajištění maximální nestrannosti AI nástrojů. Closed source modely zároveň mohou mít vyváženost velmi dobrou – zejména proto, že velké firmy mají dostatek zdrojů, které mohou problematice věnovat.
Odnaučme AI rasismu, než bude pozdě
Volání po regulaci není v technologickém světě vítaný názor, ale její zavedení by podle mého názoru určitě mělo motivační účinek. Ideální možností by bylo vybudování kontrolních mechanismů, které by alespoň částečně vysvětlovaly, jak model k závěrům došel – například pomocí odkazů na původní zdroje.
Tato jednoduchá kontrola by jádro problému neodstranila, ale v důsledku by transparentní práce s daty mohla diverzitu modelů zlepšit. V současném stavu generativní AI je to ale spíše myšlenka, nikoli něco reálně implementovatelného.
Něco však udělat musíme a ideálně co nejrychleji. Hrozí nám totiž, že „nevychovaná“ generativní umělá inteligence přestane být úsměvnou vráskou na nové technologii, ale stane se předzvěstí negativních dopadů na naše životy.
Ať už mluvíme o textu, obrázcích, nebo i dalších formátech, AI produkuje zdánlivě důvěryhodné výstupy – tak důvěryhodné, že je lehké zapomenout na možná rizika jejich kvality a vyváženosti. Modely se sice vyvíjejí velmi dynamicky, ale zatím neexistuje žádný, který by v nestrannosti vyčníval nad ostatními.
Generativní umělá inteligence tu s námi už zůstane, a jakmile si na ni zvykneme v každodenním životě, bude náročné rozlišovat, zda je vyprodukovaný výstup nestranný. Možná to řada z nás ani nebude chtít, protože přece jen máme rádi, když jsou naše stereotypy potvrzovány. Obsah bude generován v obrovském, prakticky neomezeném množství, a přímo i nepřímo tak bude ovlivňovat masy lidí. Právě proto by neměl nést žádnou specifickou agendu.
Jako potenciálně největší problém vnímám v delším horizontu skutečnost, že obsah vytvořený generativní AI zůstane z velké části dostupný online. Pokud se dostane do dalších tréninkových datasetů, ze kterých se budou učit další modely, jakékoli existující stereotypy bychom mohli nechtěně zesílit. A je prakticky jisté, že už se to tak jako tak děje.
Čeká nás ještě dlouhá cesta, ale především kvůli tomuto poslednímu riziku je důležité, abychom na vyváženost výstupu modelů kladli důraz.
Autor je technologickým šéfem vývojářského týmu STRV.