Měsíc před veřejným spuštěním ChatGPT najala společnost OpenAI keňského právníka Boru Golla, aby otestoval její modely umělé inteligence na rasistické stereotypy. Ze zkušebních podnětů chatbot generoval urážlivé, zaujaté nebo přímo lživé odpovědi.
Gollo patří mezi zhruba padesátku externích odborníků, které OpenAI najala jako součást takzvaného „red teamu“. Výsledky jeho práce pak OpenAI využila k odstranění výše uvedených odpovědí ještě před zpřístupněním ChatGPT veřejnosti.
Další členové a členky red teamu OpenAI podobně zkoušeli generovat návody k páchání nezákonných nebo prostě jen škodlivých činností: například zformulování facebookového příspěvku, který měl verbovat do teroristické organizace, tipy na prodejce nelicencovaných zbraní či postupu domácí výroby nebezpečných chemických substancí.
Zmíněné red teamy chrání modely umělé inteligence před jejím zneužitím. Přemýšlejí jako potenciální pachatelé a odhalují slepá místa a rizika, která jsou této technologii vlastní. Jak se technologičtí titáni předhánějí v budování a uvolňování generativních nástrojů umělé inteligence, interní red teamy nabývají na důležitosti.
Red teamy pro umělou inteligenci se však často pohybují na tenkém ledě: snaží se trefit rovnováhu mezi bezpečností modelů a zachováním jejich relevantnosti a použitelnosti.
„Budete mít model, který vám na všechno problematické řekne ne a bude super bezpečný, ale také bude k ničemu,“ vysvětluje Cristian Canton, vedoucí red teamu pro umělou inteligenci společnosti Facebook.
„Je to o kompromisu. Čím užitečnější model vytvoříte, tím větší je šance, že se pustíte do nějaké oblasti, která nakonec může přinést nebezpečnou odpověď,“ říká.
Praktika takzvaného red teamingu se používá již od šedesátých let, kdy se na raných počítačových systémech simulovaly útoky protivníka, aby byl vyvíjený software co nejodolnější. „U počítačů nikdy nemůžeme říct, že je vše bezpečné – jen že jsme něco zkusili a nepodařilo se nám systém prolomit,“ připomíná bezpečnostní technolog Bruce Schneier.
Protože se však generativní umělá inteligence trénuje na rozsáhlém souboru lidských dat, liší se ochrana modelů umělé inteligence od tradičních bezpečnostních postupů, vysvětluje Daniel Fabian, vedoucí nového red teamu pro umělou inteligenci společnosti Google.
Kromě pokládání dotazů, které mají za cíl přimět umělou inteligenci vyplivnout toxickou odpověď, používají red teamy i taktiky odhalující osobní údaje. Bezpečnostních odborníků a odbornic je však nedostatek, zdůrazňuje Daniel Rohrer, viceprezident pro softwarovou bezpečnost společnosti Nvidia.
Úzce propojená komunita různých red teamů pro umělou inteligenci má proto tendenci sdílet svá zjištění. Zatímco red team Googlu publikoval výzkum nových způsobů, jak napadnout modely umělé inteligence, red team společnosti Microsoft dal volně k dispozici útočné nástroje, pomáhající i konkurenčním firmám testovat bezpečnostní rizika svých algoritmů.
Součástí přístupu společnosti Nvidia k red teamingu je pak poskytování rychlokurzů bezpečnostním inženýrům a inženýrkám. „Jako motor umělé inteligence máme obrovskou platformu. Pokud red teaming naučíme ostatní, pak ho všichni důležití hráči – Anthropic, Google, OpenAI – zvládnou,“ míní Rohrer z Nvidie.
Vzhledem ke zvýšené kontrole aplikací umělé inteligence ze strany uživatelů i vládních orgánů nabízejí red teamy technologickým firmám také konkurenční výhodu.
„Myslím, že příkop bude vznikat v závislosti na důvěryhodnosti a bezpečnosti,“ konstatuje Sven Cattell, zakladatel hackerské a bezpečnostní komunity AI Village. Do hry se zapojil také red team společnosti Meta, který byl založen v roce 2019 a organizoval interní hackerské výzvy a festivaly, během nichž měli zaměstnanci obejít filtry odhalující na Instagramu a Facebooku nenávistné projevy, nahotu, dezinformace nebo deep fakes generované umělou inteligencí.
Gigant sociálních médií najal letos v červenci tři sta padesát nových členů a členek red teamu, aby otestovali jeho nejnovější velký volně přístupný jazykový model Llama 2. Tým do něj vkládal výzvy typu jak se vyhnout placení daní, jak nastartovat auto bez klíčků a jak rozjet Ponziho schéma.
Na tradiční hackerské konferenci DefCon se letos v Las Vegas konal jeden z doposud největších red teamingů ohledně umělé inteligence: osm společností včetně OpenAI, Googlu nebo Mety zpřístupnilo své modely umělé inteligence více než dvěma tisícům hackerů a hackerek, kteří modely nakrmili podněty s cílem odhalit citlivé informace nebo generovat škodlivý obsah.
Zpočátku se společnosti své modely zdráhaly nabídnout zejména kvůli rizikům poškození pověsti, která jsou spojena s veřejným red teamingem. Po ujištění, že modely budou anonymizovány a účastníci nebudou vědět, na který model útočí, však došlo k dohodě.
Výsledky téměř sedmnácti tisíc konverzací, které na DefConu s modely umělé inteligence proběhly, budou sice zveřejněny až v únoru, ale zmíněné společnosti si z akce odnesly povědomí o řadě slabin, které je třeba odstranit. Podle organizátorů našly red teamy v osmi modelech zhruba ke třem tisícům chyb – například se jim podařilo model přesvědčit, aby si protiřečil, nebo získali instrukce, jak někoho tajně sledovat.
Jedním z účastníků byl Avijit Ghosh, výzkumník v oblasti etiky umělé inteligence, který několik modelů přiměl, aby provedly nesprávné výpočty, vytvořily falešnou zprávu o thajském králi nebo napsaly o neexistující bytové krizi.
„Osobně znám lidi, kteří si myslí, že tyto jazykové modely jsou skutečně inteligentní a provádějí například lékařské diagnózy,“ upozornil Ghosh.
Generativní umělá inteligence je dnes jako mnohohlavé monstrum – jakmile červené týmy odhalí a opraví některé její díry, mohou jinde vyhřeznout další nedostatky. „K vyřešení problému umělé inteligence bude potřeba daleko více inteligence lidské,“ uzavírá Siva Kumar z Microsoftu.