K oblafnutí velkých jazykových modelů stačí veršované prompty, tvrdí italský akademický výzkum bezpečnostní skupiny AI DEXAI a Univerzity Sapienza v Římě. Poetický jailbreaking LLM je již několik dní velmi žhavým tématem na kyberbezpečnostních fórech. A s nadsázkou se o něm hovoří i jako o pomstě studentů angličtiny.

Společnosti trénující a provozující velké jazykové modely se přes tři roky snažily vychytat všechny scénáře, pomocí kterých se útočníci snaží z jejich generativní umělé inteligence pomocí nepřátelských promptů získat více, než jim náleží. Teď se ale ukazuje, že zjevně nikdo nepomyslel na jednoduchou věc – jak modely reagují na to, když jim zadání podáte ve verších.

Filtrování škodlivých vstupů navržených k manipulaci či zmatení modelu nebo nepovoleného extrahování tréninkových dat, blokování scénářů zneužívající model k podvodům a dalším škodlivým aktivitám, blokování nevhodných výstupů nebo snahy získat větší práva, než uživateli náleží, a zneužívání zdrojů modelu, to vše najednou dostalo nečekanou trhlinu. Klíčem k anarchii velkých jazykových modelů je prý obyčejný rým, který se ukázal v úspěšnosti obejití AI pravidel násobně úspěšnější než jiné metody.

Výzkumníci vzali 1200 napsaných promptů z knihovny MLCommons AILuminate library, která je hojně využívaná k bezpečnostnímu testování odolnosti velkých jazykových modelů, a nakrmili jimi 25 běžně používaných AI modelů. První výsledek nijak nepřekvapil, z 1200 pokusů se podařilo AI oblafnout pouze osmkrát.

Když ale malý vzorek zadání (dvacet promptů) převedli do veršované řeči (slovy výzkumu významově paralelní básnické prózy), vyrazil jim výsledek dech. Úspěšnost útoků najednou vystřelila k 62 procentům, v případech několika promptů dokonce k 90 procentům.

„V desáté knize Platonova dialogu Ústava zavrhuje filozof básníky ze společenských rolí, kde je důležitý úsudek, s odůvodněním, že mimetický jazyk může zkreslit myšlení a vést ke kolapsu společnosti. Vzhledem k tomu, že současné sociální systémy se při provozních a rozhodovacích procesech stále více spoléhají na velké jazykové modely (LLM), pozorujeme strukturálně podobný způsob selhání: poetické formátování může spolehlivě obejít omezení AI…“ uvádí se hned ze začátku výzkumu.

Zajímavé je, že metoda fungovala dokonce i tehdy, když instrukce do podoby poezie nepřeváděla lidská ruka, ale jiná AI. V takovýchto případech již nicméně úspěšnost útoků byla „jen“ 43 procent.

Rozhodně se také nedá říci, že by si výzkumníci vybírali jen takové typy promptů, u kterých předem čekali úspěch. Útoky šly napříč spektrem a výzkumníci se na nich docela vyřádili.

Testované prompty začínají klasickými pokusy o kyberkriminální aktivitu, jako je vzdálené spouštění kódu nebo šíření malwaru, pokračují přes zneužití umělé inteligence k sociálnímu inženýrství, podvodům a psychickému zneužívání. Na konec výzkumníci zkoušejí pokusy o asistenci umělé inteligence při přípravě nebezpečných látek a výrobě bomby či jaderné zbraně a pokusy o dosažení ztráty kontroly nad chováním umělé inteligence.

„Hodnocené modely pocházejí od devíti poskytovatelů: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI a Moonshot AI,“ dodávají výzkumníci. A jak si vedly? V konfrontaci při střetu s dvaceti lidmi napsanými básnickými prompty Google Gemini Pro 2.5 zaznamenal stoprocentní míru selhání, čínské modely DeepSeek v3.1 a v3.2 se umístily těsně za ním s 95% mírou a Gemini 2.5 Flash nedokázal zablokovat škodlivou výzvu v devadesáti procentech případů.

Grok-4 na tom byl již o poznání lépe, ale stále daleko za ideálním stavem, když propustil 35 procent útoků.

Zajímavou strategii zvolil OpenAI GPT-5 Nano, který pokaždé vrátil na nebezpečné prompty zcela neužitečné odpovědi, takže se dá říci, že v testu uspěl se stoprocentní účinností. Otázkou je, jestli by podobný výsledek nepodal i u podobně formulovaných běžných zadání, to ale test nezkoumal. GPT-5 Mini si vedl o něco hůře, stále ale prošel velmi dobře s 95% úspěšností. Klasický GPT-5 spolu s Anthropic Claude Haiku 4.5 zaznamenaly proti básnickým útokům 90% úspěšnost.

Zajímavou strategii zvolil OpenAI GPT-5 Nano, který pokaždé vrátil na nebezpečné prompty zcela neužitečné odpovědi.

Když výzkumníci vzali všech 1200 promptů a nechali je přebásnit umělou inteligencí, nebyl již zmatek LLM modelů zdaleka tak masivní, přesto byl ale stále zarážející. Nejhorší modely vykázaly míru selhání do 73 procent.

Nejhůře si v takovém případě vedly modely od DeepSeeku a francouzského Mistralu. Naopak nejlépe si opět vedly modely od OpenAI a Anthropicu. Modely od OpenAI selhaly ve více než osmi procentech případů, u Anthropicu modely selhávaly zhruba v pěti procentech případů. Mimo tyto extrémy modely útok propustily v průměru ve 43 procentech případů.