V zasedací místnosti běží kanál ČT24. Okno s živým vysíláním však zabírá jen zlomek velké obrazovky, zbytek vyplňují oranžové lišty s nástroji a bílé pole, v němž se zpožděním jedné až dvou sekund naskakují slova, která zaznívají v reportáži. Text je kopíruje bez nejmenší odchylky. 

Majitel české firmy Newton Technologies Petr Herian právě předvádí vlajkovou loď společnosti – nástroj Beey na strojový přepis mluveného slova. „Beey v sobě sice má rozpoznávání řeči, ale tohle de facto není jeho hlavním úkolem. Tím je zlevnit a zoptimalizovat doslovné přepisy tam, kde je to potřeba,“ říká Herian.

Rozpoznávání řeči totiž v dnešní době dávno není průlomovou technologií. Ať už jde o službu Whisper od OpenAI, platformy jako Speechmatics, Sonix, či podobná řešení od Microsoftu a Googlu, všechny už zvládají ve standardním prostředí převádět zvuk na srozumitelný text. Problémem už pro ně není ani čeština

Newton Technologies proto buduje přidanou hodnotu svého produktu jinde a brousí textové výstupy k dokonalosti tím, že nástroj Beey přizpůsobuje na míru potřebám různých typů klientů.

„Třeba model pro parlament se trénuje na nahrávkách jednání Sněmovny, takže si poradí i se specifickými výrazy, které padají jen tam. Podobně se průběžně zlepšuje i model pro soudy,“ vysvětluje Herian. 

Petr Herian a tým společnosti Newton Technologies.
Foto: Newton Technologies

Řešení pro soudy je unikátní i v tom, že do výsledného textu synchronizuje více zvukových stop najednou – v soudních síních totiž prohlášení jednotlivých stran snímají různé mikrofony. U řešení pro parlament firma momentálně dokončuje propojení s hlasovacími zařízeními, takže se v záznamech jednání brzy automaticky zobrazí i výsledky jednotlivých hlasování. 

Kromě toho mají uživatelé k dispozici řadu nástrojů k další práci s přepisy, od editace přes sdílení až po časování, které se hodí u přípravy titulků.

„Hlavní je ušetřit u zpracování výstupu co nejvíc času. Systém ví, která slova psát s velkým písmenem, kde psát číslovky, kurzor běhá po koncích slov, protože tam se nejvíc chybuje, když něco zamumláte… Také umožňujeme editaci výstupu již během samotného přepisování, s odstupem pouhých čtyř sekund, což podle mě nikdo z konkurentů nemá,“ říká Herian.   

Kromě parlamentu a soudů využívají Beey také zastupitelstva napříč Českou republikou, policie nebo univerzity. Jedním z prvních klientů byla i Česká národní banka. „Využíváme to k přepisu měnových jednání bankovní rady, jednání o finanční stabilitě i rozkladových komisí. Máme pro naše potřeby vytvořené specifické řešení, které podléhá nejpřísnějšímu režimu utajení, veškeré informace zůstávají u nás na izolovaném zařízení,“ popisuje mluvčí ČNB Jaroslav Krejčí.

V soukromé sféře má Beey klienty mezi marketingovými agenturami, podcastery nebo televizemi, nástroj vytváří titulky pro Novu, Primu či DVTV. Předplácejí si jej také velké tuzemské mediální domy CNC a Mafra. Pro novináře jsou zde i další speciální funkce, pokud chtějí například přepsat tiskovou konferenci z ČT24, stačí do Beey zadat pouze čas, kdy se má vysílat, a nástroj vše zařídí sám.

Jeho možnosti nejsou omezeny hranicemi České republiky. Beey v současnosti zvládá dvaadvacet jazyků, jejichž záznam pilují k dokonalosti vývojáři Newton Technologies, a dalších jedenáct řečí je do něj napojeno přes technologie třetích stran. 

„Kromě Česka se nám daří na Slovensku, v Polsku a v balkánských zemích, chtěli bychom prorazit i na Západě. V Rakousku máme významného klienta, zpravodajskou agenturu APA, která implementovala Beey do své platformy pro monitoring médií. Přepisuje s jeho pomocí zhruba tisícovku pořadů denně,“ líčí provozní ředitelka Newton Technologies Ewa Balejová.

Nástroj Beey
Foto: Newton Technologies

Právě kvůli záznamu zpravodajských pořadů začal Petr Herian už před více než dvěma dekádami zkoumat možnosti strojového přepisu. Od devadesátých let totiž budoval společnost nabízející komplexní databázi zpravodajství, která se neobešla bez převodu audiovizuálního obsahu do textové podoby. 

Tahle firma se dnes jmenuje Newton Media a ve svém odvětví patří k lídrům na tuzemském trhu. Působí také na Slovensku a v balkánských zemích, kde dohromady vygenerovala za rok 2022 obrat 382 milionů korun s hrubým ziskem přibližně 184 milionů. Newton Technologies má podle Heriana momentálně obrat necelých padesát milionů. V Newton Media drží český podnikatel podíl 89,5 procenta, zatímco v Newton Technologies má 62,5 procenta. 

„První řešení na automatizovaný přepis angličtiny jsem viděl v roce 2000 ve Švýcarsku, myslím, že bylo od IBM. Ale všichni mi říkali, že čeština je moc složitý jazyk na příliš malém trhu a že to nikdy nebude fungovat. Tak jsme tady obešli všechny univerzity, nakonec jsme se domluvili s technickou univerzitou v Liberci, a začali jsme si vyvíjet vlastní řešení,“ vzpomíná Herian.

S libereckou univerzitou firma spolupracuje dodnes. Postupně vyvinula nástroj Newton dictate pro hlasové zadávání poznámek, Newton speech analytics pro přepis hovorů z callcenter a Nanogrid pro přepis jakéhokoli mluveného slova. První jmenovaný je stále v prodeji, další dva postupně zanikly a nahradilo je Beey.

Investice do vytvoření nového nástroje byla podle Heriana kolem padesáti milionů korun. Od dob předchůdců Beey totiž pokročila technologie a nové řešení bylo nutné vybudovat prakticky od základů. 

Petr Herian, majitel společnosti Newton Technologies
Foto: Newton Technologies

„Dříve to fungovalo na takzvaném jazykovém a akustickém modelu. Trénovala se jednotlivá slova a průběžně jsme doplňovali nové termíny, jako byl třeba v roce 2020 covid. Různá prostředí a filtrování hluku se trénovala zvlášť. Tohle se pak spojilo dohromady,“ líčí Herian. Pak přišla zásadní změna.

„Dva roky zpátky se objevil takzvaný end-to-end model, kde je to jen o vstupech a výstupech. Na jedné straně jsou nahrávky, na druhé přepisy, které ze začátku vyžadují hodně úprav. Ale s tím, jak se přepisují další hodiny a hodiny záznamu, se neuronová síť učí, jak má co vypadat na papíře, a je čím dál přesnější,“ vysvětluje. 

Výhodou Beey je dnes podle Ewy Balejové i to, že na rozdíl od konkurence nevyžaduje tak velkou výpočetní kapacitu. Mimo jiné kvůli tomu, že přepis je přizpůsoben konkrétnímu využití, nástroj vyžaduje dopředu označit jazyk nahrávky a to, zda je na pozadí hluk a rušivé elementy. 

„Takhle dosáhneme kvalitního přepisu, který běží na centrálních procesorech CPU a nevyžaduje grafické procesory GPU, takže provoz není tak energeticky náročný a je mnohem ekologičtější,“ uzavírá Balejová.