Význam slovního spojení umělá inteligence se v průběhu let zásadně mění. Zhruba před dvaceti lety se tak označovalo například optické rozpoznávání znaků, které dnes známe pod zkratkou OCR. Dnes si však většina lidí pod tímto pojmem vybaví zejména velké jazykové modely typu ChatGPT, případně nástroje na strojové generování obrázků typu MidJourney.
Část lidí živících se psaním, nástup a schopnosti ChatuGPT vyděsil, část se zase těšila na to, že na něj bude moct delegovat práci. Zatím však z umělé inteligence profitují jinak – těží z výrazného zlepšení nástrojů na automatizovaný přepis nahrávek do textové podoby.
Ať už jde o novináře, zaměstnance zákaznických center, terapeuty, výzkumníky, překladatele nebo právníky, ti všichni zjišťují, že dostupné aplikace se postupným používáním neustále zlepšují a už dnes umějí téměř eliminovat pracné přepisování zvukových souborů. Není tomu navíc tak dávno, co si uměly poradit prakticky jen s angličtinou, teď už velice obstojně zvládají i češtinu.
V redakci Forbesu jsme otestovali celkem šest nástrojů ve snaze zjistit, který z nich umí česky nejlépe. Automatizovaný přepis nahrávek totiž zdaleka nevyužijí jen zmíněné profese, ale také všichni studenti a prakticky jakákoli firma, která by si chtěla vést podrobné záznamy o interních jednáních.
Přesnost přepisu češtiny jsme testovali na pěti různých typech nahrávek. Zajímalo nás, jak si platformy poradí s dialogem vedeným v tichu, ale i s dialogem vedeným v hlučném prostředí, kde je potřeba odfiltrovat rámus z okolí. Zajímala nás také debata skupiny lidí a to, zda platformy v tomto případě dovedou spolehlivě identifikovat jednotlivé mluvčí.
Testovali jsme je i na úryvku z odborné přednášky, protože jsme byli zvědaví, jak si poradí s odbornými termíny a žargonem. A v neposlední řadě to byla nahrávka ze sálu se špatnou akustikou, kde se mluvilo na mikrofon a srozumitelnost nahrávky notně snížila ozvěna.
Přesnost nástrojů Beey, Good Tape, Happy Scribe, Sonix, Speechmatics a Transkriptor jsme měřili počtem slov, které v nahrávkách nezachytily správně. Za chybná jsme ovšem považovali pouze slova, ze kterých nešlo poznat původní myšlenku, a to ani z kontextu slov kolem.
Například pokud některá z platforem přepsala spojení „sto metrů čtverečních“ jako „sto metrů čtvereční“, brali jsme to za zcela správné. Podobným příkladem byl „byznys“, jejž řada nástrojů přepisovala jako „biznis“ nebo termín „mezikvartálně“, z nějž vzniklo „mezi kvartálně“.
Každý přepis byl ve finále poněkud nevzhledný, protože téměř nikdo se v běžných konverzacích nevyjadřuje tak, aby jeho prohlášení slova do slova vypadala dobře i na papíře. U výběru jsme zohlednili i dikci mluvčích, vybrali jsme nahrávky, kde se mluví průměrným tempem a bez vad řeči. Rovnoměrně jsme zastoupili mužské a ženské hlasy.
Všechny zkoumané platformy jsou na takové úrovni, že klíčové myšlenky se v textu neztrácejí, byť v některých případech je nutné si detaily domýšlet z kontextu. Nicméně výstup z každého nástroje je přehledně označen časovými značkami, takže případné nejasnosti lze doladit přehráním klíčových částí nahrávky.
U všech platforem je před přepisem nutné označit, v jakém jazyce se na nahrávce mluví. Beey se zeptá i na to, zda na ní mluví jeden člověk nebo skupina a zda je na pozadí slyšet hodně rušivých zvuků. Nástroje se z audiozáznamu pokoušejí také rozlišit jednotlivé mluvčí, přičemž nejdál je služba Happy Scribe.
Všechny však mají v tomto ohledu před sebou ještě spoustu práce. U rozhovoru dvou lidí v klidném prostředí to zvládnou relativně spolehlivě, u větší skupiny a v hluku jim to zatím nejde.
U dynamické diskuse, kde si jednotliví účastníci skáčou do řeči, pokulhává i samotná přesnost přepisu. Ale možná byl v tomto případě problém u zvolené vzorové nahrávky. Vybrali jsme totiž kousek záznamu z české komedie Vlastníci o schůzi SVJ, která byla nejspíš i na umělou inteligenci trochu moc.
Pochopitelným problémem jsou pro platformy různé zkomoleniny a slova, která se příliš často nepoužívají. V jedné z nahrávek zaznělo slovo „ztrínásobit“, se kterým si poradil pouze Beey. Termín „fičůrky“ nezvládl přepsat ani jeden z testovaných nástrojů.
Jak už jsme zmínili, před přepisem je nutné označit jazyk nahrávky, což představuje komplikaci při používání anglicismů. Někdy z nich vznikají docela vtipné přepisy, například z anglického názvu „She’s next“ takto vznikl „česnek“.
Problémem jsou i zkratky, například Sonix nepobral skoro žádnou. Z „ESG“ udělal „zdraví“, z „IRR“ vytvořil „area radar“ a slovo „AIDS“ přepsal jako „X“. Naopak s čísly si testované platformy poradily se stoprocentní správností.
Z uživatelského hlediska nám přišla nejpřívětivější služba Good Tape. Je to ale tím, že nabízí pouze přepis, jeho editaci a možnost uložit si k němu i nahrávku, aby bylo možné podle časové značky v případě potřeby přehrát jen pasáže, co jsou z textu nepochopitelné.
Ostatní nástroje nabízejí také širokou paletu dalších nástrojů na práci s vytvořenými textovými soubory a jejich sdílení.