To, co by jinak člověku trvalo půldruhé hodiny, zvládne umělá inteligence za pár minut. Svůj jedinečný systém na automatické rozpoznávání řeči vyvíjejí čeští vědci z Technické univerzity v Liberci už několik desítek let. Začínali češtinou a postupně ve spolupráci s firmou Newton přidávají další slovanské jazyky. Tentokrát se spojili i se svými norskými kolegy a vyvinuli unikátní algoritmus na převod mluvené norštiny a švédštiny do textu.
„Rozpoznáváním řeči se začal zabývat profesor Jan Nouza už v devadesátých letech. Postupně jsme na liberecké univerzitě ve spolupráci s Newtonem vyvíjeli další a další generace systému,“ říká Petr Červa, který celý projekt za technickou univerzitu vede. Dnes už je přes aplikaci Beey, která je dílem společnosti Newton, k dispozici přepis mluveného slova do textu ve dvaceti jazycích.
Jak funguje ten český, jsem si vyzkoušela právě na následujícím rozhovoru. Více než půlhodinovou nahrávku v diktafonu mi systém převedl do psané podoby během pár minut. A prakticky bez chyb, i když v kavárně, kde jsme se s Petrem Červou sešli, bylo poměrně rušno a hrozilo, že na ní budou slyšet i hlasy sousedních hostů. „Čím čistší řeč, tím je samozřejmě rozpoznávací skóre vyšší,“ dodává Petr Červa.
Můžeme popsat, jak vlastně celý systém funguje?
V dnešní době jde o nejnovější generaci této technologie. Je to jedna obrovská, velice komplexní neuronová síť. Ta má asi 140 milionů parametrů. A této síti se v rámci fáze učení předkládají zvukové nahrávky s textovým přepisem. Musíme mít proto k dispozici obrovské množství, až desetitisíce hodin se správným přepisem, kde je zaznamenán zvuk od různých mluvčích v různém prostředí.
Neuronové síti se potom postupně všechny nahrávky předkládají. A ona se snaží generovat text, který má být správný. Když se jí to nepovede, tak si své parametry uvnitř opraví, aby se jí to příště povedlo líp. Vlastně se naučí, jak zní třeba jméno Petr tak, že ho slyší v tisících realizacích od různých lidí.
A tato neuronová síť je tedy prací vašeho výzkumného týmu?
Protože rozpoznáváním řeči se zabývají tisíce výzkumníků, existují dnes po celém světě různé generace nebo různé varianty těchto hlubokých neuronových sítí. A my se snažíme vývoj sledovat a modely optimalizovat pro češtinu a další jazyky, aby nám co nejvíce vyhovovaly a přinášely co nejlepší výsledky pro naše konkrétní úlohy. To znamená, že modifikujeme a optimalizujeme dané modely a částečně je vyvíjíme.
Sám jste řekl, že nejste jediní, kdo se převodem mluveného slova do textu zabývá. Ale čím se třeba lišíte od brněnské společnosti Phonexia, která v tomto oboru patří mezi špičku?
Myslím si, že brněnská společnost se zaměřuje především na rozpoznávání a verifikaci mluvčího. To je klíčové třeba pro kriminalistický ústav a různé bankovní aplikace nebo call centra. Samozřejmě mají i modul pro rozpoznávání řeči, ale jeho přesnost pro češtinu je, alespoň jak jsme si nedávno zkoušeli, o trochu horší než ta naše. Není mi známo, že by se jejich systém používal třeba pro nepřetržitý přepis televizního rozhlasového vysílání.
Takže u vás je jedno, jak bude záznam dlouhý?
Dokážeme do sítě pouštět nepřetržitý proud dat. Jedno z využití těchto technologií právě ve firmě Newton je, že se do neuronové sítě celý den pouští postupně záznam třeba z České televize nebo Českého rozhlasu. A síť neustále generuje odpovídající text.
V Newtonu tak běží stovky a stovky rozpoznávačů na takové cloudové platformě a neustále přepisují jednotlivé televizní a rozhlasové pořady. Hlavně ve slovanských jazycích, které máme oproti ostatním v podstatě kompletně pokryté, a jsme schopni garantovat i opravdu vysokou přesnost.
Když teď přejdeme k norštině a švédštině, kterou už teď váš systém dokáže také převést do textu, tak to není zrovna řeč, kterou by čeští zákazníci hojně využívali…
V Česku ne, v plánu je ale nasadit systém ve skandinávských zemích. A už teď víme, že o něj projevila zájem norská policie. A další možností je třeba parlament, na přepis schůzí zákonodárců. Výhodou je, že záznam dokážeme ještě automaticky rozdělit na úseky podle jednotlivých osob, které mluví. Mluvčí si potom program Beey i zapamatuje. Zároveň má i funkci automatického doplňování interpunkce.
V Beey navíc u každého slova zůstane uložena časová značka napojená na audio stopu, takže lze přehrávat zvuk i podle umístění kurzoru v textu. Hlavní využití to ale má při tvorbě titulků, které si buďto můžete vygenerovat automaticky jedním klikem, nebo využít přímo k tomu určený titulkový režim. Ten umožňuje úpravu titulků na profesionální úrovni, včetně vizualizace audia a titulku ve zvukové vlně.
A proč jste se vůbec do těchto jazyků pouštěli? Cítili jste zájem potenciálních zákazníků?
Na začátku byl požadavek ze strany jedné švédské firmy, hlavně se ale objevila možnost získat na projekt peníze z norských fondů, takže jsme té příležitosti využili a šli do toho právě opět s firmou Newton Technologies.
A nebyla práce na tomto systému přece jen obtížnější?
Norština je obtížná kvůli množství různých dialektů. A zároveň má složená slova, takže je tam obrovská slovní zásoba. A má ještě jednu takovou zvláštnost, že stejné slovo se může zapsat dvakrát jinak. Třeba slovo Petr napíšete jako Petra. Norové se totiž kdysi v dobách národního obrození chtěli odlišit od dánštiny, tak si vytvořili něco jako novou norštinu. Začali některá slova, která znějí úplně stejně, jinak zapisovat. Na druhou stranu technologie se ve finále dokáže naučit opravdu téměř cokoli.
Obtížné bylo získat trénovací data. Používali jsme k tomu ještě starší technologie, které vycházely z klasického slovníku, a vytvářeli jsme různé varianty výslovnosti. Vezměte si třeba záznam z parlamentu. Víte zhruba, co tam bylo řečeno, máte nepřesný přepis. My ho musíme skrze naše algoritmy rozkouskovat, nakrájet a zarovnat s původním přepisem a pak zkoumáme a porovnáváme, nakolik odpovídá tomu, co bylo v parlamentu skutečně řečené. A teprve, když jsme měli dostatečnou shodu, tak jsme nahrávku vzali, ručně doopravili a vytvořili z ní trénovací data.
To zní dost náročně, hlavně časově i personálně.
U nás na univerzitě se této problematice věnuje deset lidí a zapojili jsme i nějaké studenty. K tomu se přidali lidé z Newtonu, lingvisté, softwaroví vývojáři a lidé, kteří pomáhají se zpracováním dat, s testováním. Na norštině už pracujeme třetím rokem. Se švédštinou jsme naopak začali až letos v létě a můžeme se jí teď věnovat víc.
Slovanské jazyky jsou jednodušší?
Záleží na množství dat. Když jich je dost a v dobré kvalitě, dokážeme je rychle vytěžit. A pak záleží i na tom, jak moc má být výsledek přesný. Když nám stačí základní úroveň, tak umíme nový jazyk vyvinout třeba do jednoho roku. Když ho ale chceme vypilovat, aby systém opravdu dobře rozpoznával číslovky, desetinná čísla a podobně, tak ho zdokonalujeme vlastně neustále.
A pracujeme i na tom, aby se výstup z rozpoznávače objevil co nejdříve, abyste na přepis nečekala dvacet sekund, ale třeba jen několik. Zkrátka, aby byl výsledek co nejrychleji k dispozici a systém měl jen velmi malé zpoždění.
A když se na to podíváme z byznysové stránky, můžete na tom jako univerzita vydělat?
O to se snaží hlavně firma Newton, která technologii nabízí monitorovacím firmám nebo i státním institucím, soudům. K opravě přepsaných záznamů pak slouží právě webová aplikace Beey, kterou můžete využít kdekoli. Můžete pomocí ní i vytvářet titulky. Na webové stránce se zaregistrujete, dostanete k dispozici menší kredit na vyzkoušení a pak už si můžete přes platební bránu dokupovat další minuty. Vytvoříte si uživatelský účet a do něho si ukládáte nahrávky, které si necháte přepsat, případně je pak opravíte.
To jsme trochu odběhli od těch peněz. Máte tedy z prodeje nějaká procenta?
Ano, ale spíše to vnímáme tak, že se dostaneme k zajímavým projektům. V jejich rámci totiž řešíme i jiné související a teoretičtější úlohy, než je přepis řeči v jednom konkrétním jazyce, a vytváříme pak vědecké publikace. U aplikovaného výzkumu dnes totiž potřebujete k získání projektu partnera z komerční sféry, který je schopný i po skončení projektu technologii dál nabízet. A třeba se podílet i na spolufinancování, protože nikdy nedostanete stoprocentní dotaci. Příjmy máme ve formě podílů z tržeb.
A zajímají vás i jiné jazyky?
Určitě, hlavně ty, u nichž vidíme nějaký potenciál z výzkumného hlediska nebo třeba z hlediska možného nasazení. Do budoucna chceme mít francouzštinu, protože je to podobně silný jazyk jako němčina, kterou již máme. A ještě více chceme vypilovat angličtinu, kde je velká konkurence, takže abyste zákazníky oslovili, musíte mít velmi nízkou chybovost. Nebo to naopak mohou být jazyky jako finština či třeba estonština, kterými se zatím nikdo moc nezabýval a kde je nižší konkurence.
A co třeba čínština nebo japonština, zvládli byste je taky?
Asi ano, ale nevím, zda by to nebyl špatně využitý čas. Protože dnes vývoj v této oblasti táhnou extrémně dopředu právě Číňani, a je tam tedy velká konkurence. Arabština je zase složitá už jen proto, že se píše z druhé strany. Spíš uvažujeme o vietnamštině, protože o tu by mohly mít zájem hlavně bezpečnostní složky. A zároveň je to jediný z východoasijských jazyků, který používá latinku.
Povídáme si v kavárně, kde je kromě nás poměrně dost hostů a není tu úplně ticho. Jak si s takovou nahrávkou, která není zcela čistá, váš systém poradí?
Samozřejmě čím čistší nahrávka je, tím větší bude rozpoznávací skóre našeho systému. I proto mám váš diktafon u sebe poměrně blízko, jinak by chytal mnohem víc cizích slov a pak by se v přepisu objevovaly chyby nebo úplně jiná slova.
Kde všude najde váš systém uplatnění?
Třeba v online monitoringu televizního, rozhlasového a internetového vysílání, při přepisu jednání v parlamentu, při tvorbě zápisů z jednání zastupitelstev, přednášek, konferencí. Pak i při vyhledávání v audioarchivech nebo vytváření skrytých titulků k videím pro neslyšící. A samozřejmě ho může použít kdokoli, třeba právě vy, komu se nechtějí přepisovat dlouhé zvukové nahrávky. Ušetří vám to čas.