Umělé hlasy od ElevenLabs jsou tak dokonalé, že by při vašem napodobování obalamutily i vaše vlastní rodiče. A pro tuhle čtyři roky starou firmu je to dar i prokletí zároveň. Její zakladatelé, kteří se kdysi objevili v žebříčku amerického Forbesu 30 pod 30, jsou dnes sice dolaroví miliardáři, ale jejich digitální dítě balancuje na tenké hraně mezi revolucí a hrozbou.

Filmový dabing v Polsku je otřesný. Čiré utrpení. Představte si jediného dabéra, který s unylou, slovanskou monotónností odříkává úplně všechny postavy. Žádné emoce, žádný casting, žádná změna hlasu. Mladí Poláci to k smrti nenávidí. „Zeptejte se kteréhokoli z nich a potvrdí vám, že je to děs,“ říká Mateusz „Mati“ Staniszewski, spoluzakladatel AI impéria ElevenLabs. „Je to nejspíš takový ten komunistický přežitek – levná cesta, jak narychlo vyrobit obsah,“ dodává.

Když Staniszewski ještě pracoval v Palantiru, spojil síly s kamarádem ze střední a inženýrem z Googlu Piotrem Dabkowským. Společně začali experimentovat s umělou inteligencí a brzy jim svitlo: jejich prototyp digitálního řečnického kouče by mohl vyřešit ono polské filmové trauma. Konečně by hlasy Leonarda DiCapria nebo Scarlett Johansson nepřehlušoval pořád ten samý unavený hlas Macieje Gudowského.

Na příkladu Sira Michaela Caina si můžete poslechnout, jak taková AI kopie lidského hlasu zní.

Oba do projektu vložili veškeré úspory a v květnu 2022 sekli s prací, aby se do ElevenLabs opřeli naplno. Hned první verze jejich generátoru řeči působila proti robotické Siri nebo Alexe jako z jiné galaxie. Hlasy od ElevenLabs totiž uměly víc než jen číst – uměly se radovat, nadchnout, a dokonce se i upřímně zasmát.

V lednu 2023 přišel zlom. První veřejný model dokázal vdechnout život jakémukoli textu a přečíst ho libovolným hlasem – klidně i tím vaším (nebo, jak se později ukázalo, v horším případě, hlasem kohokoli jiného).

Zájem byl okamžitý a masivní. Spisovatelé začali bleskově produkovat audioknihy, youtubeři díky AI mluví ke svým divákům ve 29 jazycích a do fronty na spolupráci se postavili obři jako vydavatelství HarperCollins nebo německý gigant Bertelsmann. „Bylo jasné, že je to ten nejlepší model na trhu. Každý ho chtěl,“ vzpomíná Jennifer Li z fondu Andreessen Horowitz.

Jenže mince má i svou temnou stranu. Technologie se rychle chopili i internetoví vtipálci a podvodníci. Světem proletěly nahrávky, kde Donald Trump nevybíravě komentuje videohry, herečka Emma Watson předčítá Mein Kampf nebo Joe Rogan vábí lidi do pastí pochybných podfuků. Ještě děsivější jsou ale případy, kdy digitální klony hlasů blízkých osob posloužily k milionovým krádežím.

Investory to však nezastavilo. A to ani ty české, do firmy už totiž investoval také český fond Credo Ventures. Hned v prvotní fázi v lednu 2023 dva miliony dolarů a účastnil se i dalšího investičního kola v červnu 2023, ale v jeho případě už přesnou částku nezveřejnil.

ElevenLabs už každopádně celkem vybrala přes tři sta milionů dolarů a její hodnota v říjnu vystřelila na 6,6 miliardy dolarů. Třicetiletí zakladatelé, Staniszewski (v roli CEO) a Dabkowski (šéf výzkumu), se tak oficiálně stali dolarovými miliardáři.

Dnes jim zhruba polovina příjmů plyne od korporací jako Cisco nebo Adecco, které přes AI vyřizují zákaznické hovory či pohovory s uchazeči. A studio Epic Games využívá jejich technologii k namlouvání postav ve Fortnite – včetně Darth Vadera. Druhou polovinu tvoří komunita kreativců: youtubeři a podcasteři. Na rozdíl od většiny AI startupů, které peníze jen pálí, je ElevenLabs strojem na zisk s neuvěřitelnou šedesátiprocentní marží.

V ringu teď stojí proti nejtěžším vahám: Googlu, Microsoftu a OpenAI. ElevenLabs ale nehodlá hrát druhé housle. Jejich modely jsou tak dobré, že si mohou dovolit být třikrát dražší než konkurence. V jejich knihovně najdete deset tisíc hlasů, které zní mrazivě lidsky, včetně hollywoodských ikon Michaela Caina nebo Matthewa McConaugheyho. A jsou také spolehlivější – v testech dělají o polovinu méně chyb než modely od OpenAI.

„Jsme jednou z mála společností, které jsou před OpenAI – a to nejen v oblasti řeči, ale i převodu řeči na text a hudby. A to je těžké,“ říká Staniszewski.

Mati Staniszewski | Foto Cody Pickens pro Forbes

Jejich recept? Malý, posedlý tým výzkumníků, skromný rozpočet a jasné zaměření. „Mít hory peněz na výpočetní výkon může být paradoxně prokletí,“ vysvětluje Dabkowski. „Nenutí vás to totiž přemýšlet o problémech chytře.“

Úspěch má ale i svou soudní dohru. Dvojice vypravěčů audioknih firmu zažalovala s tím, že ElevenLabs bez dovolení „vysála“ tisíce jejich nahrávek pro trénink své AI. Spor nakonec skončil mimosoudním vyrovnáním.

Firma také postupně dospívá a zavádí přísnější pravidla – po incidentu s falešným hlasem Joea Bidena, který odrazoval voliče, vznikl seznam „nedotknutelných“ osobností (převážně politiků a celebrit) a tým lidských moderátorů, kteří dohlížejí na slušné mravy v digitálním éteru. Nově klonované hlasy musejí projít kontrolou souhlasu a firma nabízí i bezplatný detektor deepfakes.

Staniszewski a Dabkowski mají plány, které sahají daleko za hranice lidského hlasu. Protože tvůrci i mediální domy toužili po hudbě bez autorských poplatků, spustili v srpnu AI generátor hudby. Nemáte čas natočit video? Příští rok ElevenLabs nabídne AI avatary pro videa ve stylu modelu Sora. Jejich nejodvážnější sázkou je vize, že vybudují jednotný uzel, kde budou klienti spravovat veškeré své AI nástroje. „Stavíme platformu, která vám umožní vytvářet hlasové agenty a hladce je nasazovat,“ říká Staniszewski.

To samozřejmě staví ElevenLabs do přímého střetu s řadou dalších startupů, které doufají v totéž. Pomáhá jim, že jsou ziskoví už od svých začátků, ale konkurence je bohatě financovaná a technologičtí giganti mají téměř neomezené zdroje. Inovace jsou tedy nutností – hlasové modely se brzy stanou běžnou komoditou, a jakmile ostatní hráči náskok doženou, přelétaví zákazníci, kterým už teď vadí ceny ElevenLabs, pravděpodobně odejdou.

A co polští dabéři? Ti zatím stále filmy v Polsku namlouvají, ale jejich éra se prý chýlí ke konci. Dabkowski totiž slibuje, že jeho příští model zvládne přeložit a kompletně nadabovat celý film na jeden zátah. „Své mise se nikdy nevzdáváme,“ usmívá se.