Google, Facebook a… také výzkumníci z Brna. Mezi pěticí nejvýznamnějších světových institucí v oblasti počítačového rozpoznávání řeči figuruje vedle technologických gigantů i skupina BUT Speech@FIT založená docentem Janem Černockým, vedoucím Ústavu počítačové grafiky a multimédií na Fakultě informačních technologií (FIT) brněnského VUT.

Mezi absolutní elitu zařadil skupinu ve svém nejnovějším žebříčku specializovaný server ArnetMiner. Ten také dal Černockého, Lukáše Burgeta a Pavla Matějku, kteří všichni do skupiny patří, na seznam stovky nejvlivnějších výzkumníků zmíněného oboru. Z Čechů se do stovky vešel ještě Tomáš Mikolov, absolvent FIT.

Žebříček slouží k indexování a vyhledávání autorů, publikací a dat z počítačových věd. Docenta Černockého těší, že BUT Speech@FIT stojí na nejvyšších příčkách, současně to ale bere s rezervou, poněvadž nezná přesnou metodiku pro sestavování pořadí a v „top five“ by si podle něj zasloužili být i jiní.

Na druhou stranu je neoddiskutovatelné, že tuzemští experti patří stabilně mezi největší globální esa oboru. Žebříček tuto skutečnost pouze podtrhl a poslal Brňany mezi výjimečnou společnost: kromě již zmíněných společností Google a Facebook jsou v první pětce ještě IBM a Univerzita Carnegieho–Mellonových z amerického Pittsburghu.

Místo na vrcholu žebříčku je prestižní a z PR hlediska hodně využitelné. Ještě zásadnější je ovšem byznysový potenciál plynoucí z práce českých výzkumníků, přičemž významná střediska pro bádání tohoto druhu jsou kromě Brna i v Plzni, Liberci a částečně v Praze. „Coby Češi jsme na světové špici a firmy se toho chytly,“ kvituje Černocký.

Čerstvě oceněná skupina založená brněnským informatikem, který je zároveň jejím výkonným ředitelem, konkrétně pracuje na tématech, jako je přepis mluveného slova, rozpoznávání mluvčího, identifikace pohlaví řečníka nebo určení i raritního jazyka, kterým je verbální projev pronášen.

Ovládni AI!
Vydání Forbesu Ovládni AI!

„Jsme tak trochu tlačeni i do ezoteričtějších věcí, jako je detekce stresu, únavy a podobně,“ prozrazuje Černocký. „Stojíme v tomto na zemi, nicméně kolega nyní dělá projekt, ve kterém pomáhá psychoterapeutovi poznat na základě inženýrských triků, zda sezení dopadlo úspěšně, nebo ne.“

Na tom je vidět, že komerční prostředí využívá počítačové rozpoznávání řeči různorodě. Hojně například v automobilovém průmyslu, také aplikacemi programů do osobních asistentů typu Alexa od Amazonu. Stále větším hitem se stávají i hlasoví chatboti v call centrech, kteří při rutinních operacích mohou relativně snadno nahradit člověka.

„Banky pak začínají využívat ověření hlasu při přístupu na klientský účet a úvěrovým společnostem se zase líbí, že díky strojovému rozpoznávání řeči chytnou toho, kdo žádá o půjčku třeba podesáté a vždy pod jinou identitou,“ doplňuje Černocký širokou škálu možností.

Mezi ně patří i oblast bezpečnosti. Výzkumníci „trénují“ počítače, aby za pomoci algoritmů stále dokonaleji vyhodnocovaly hlasy z rozličných vojenských vysílaček i telefonů a tyto hlasy „vydolovaly“ dejme tomu i ze silného větru. To vše může vést k mnohem kvalitnějšímu taktickému posouzení případné situace na bojišti.

Běží rovněž projekty ve prospěch policie, které by analýza odposlechů ze strany umělé inteligence mohla pomoci určit, kdo s kým po telefonu přesně mluví. „Lidé mohou měnit SIM karty, ale ne hlas,“ lakonicky vysvětluje ředitel BUT Speech@FIT. Skupina v tomto smyslu spolupracuje i s Národní protidrogovou centrálou a celý projekt je konzultován s odborníky ministerstva vnitra.