Mona Lisa díky umělé inteligenci rapuje. Její ústa se rozpohybovala a ztratila tím tajemný úsměv. Úsměv však kvůli tomu mohou ztratit i ostatní.
Po více než pěti stech letech strnulosti vytřeští náhle dáma na portrétu oči a promluví. Přesněji řečeno zarapuje, konkrétně komický výstup hollywoodské hvězdy Anne Hathaway.
Tak vypadá naschvál provokativní demonstrace nového modelu umělé inteligence, s nímž minulý týden přišla společnost Microsoft. Model se nazývá VASA-1 a umí realisticky animovat fotografie lidí, případně i obrazy, jak je ukázáno právě na díle geniálního Leonarda da Vinciho.
Popsaná technologie není zcela překvapivá – je dalším a víceméně očekávaným krokem v raketové evoluci AI. Ani otázky, které tento krok vzbuzuje, nejsou dvakrát originální, ale s VASA-1 získaly na intenzitě a je legitimní a patrně čím dál důležitější je pokládat.
Hledět na rapující Monu Lisu je jistě zábava a zrovna v jejím případě těžko někdo naletí, že jde o skutečnost. Je ovšem snadné si představit, co lze provádět s videem rozmluvených fotografií, v němž je uvěřitelně synchronizován pohyb rtů s řečí a s přirozenými pohyby obličeje a hlavy.
Microsoft uvedl, že technologie by měla sloužit pro účely lepšího vzdělávání nebo může pomáhat lidem s komunikačními problémy. Avšak obava ze zneužití ve smyslu prohloubení zdánlivé věrohodnosti dezinformací je rozhodně namístě.
„Vývoj umělé inteligence je dnes téměř neuvěřitelný,“ říká Petr Štros ze společnosti Qinshift. „Když se díváte na nové produkty, například na automatickou transpozici hlasu do různých jazyků včetně složité a menšinové češtiny, skoro vám to vyrazí dech.“
V souvislosti s umělou inteligencí však zůstává optimistou. „Vždy je otázkou, co ji naučíme, s čímž je provázáno čistě naše rozhodnutí, co od ní chceme a co ne,“ tvrdí Štros.
Nicméně i po ohni lidé chtějí, aby je hřál, přesto nemohou vyloučit nebezpečí požáru. S umělou inteligencí je to v podstatě stejné a riziko zneužití je každému patrné. Včetně vývojářů a vývojářek z Microsoftu: zatím neplánují uvolnit VASA-1 pro veřejnost.
„Dokud si nebudeme jisti, že technologie bude používána zodpovědně a v souladu s přísnými předpisy, nepustíme VASA-1 mezi běžné uživatele,“ stojí v prohlášení společnosti.
Společnost tak s VASA-1 volí stejný postup jako konkurenční generátor realistických videí Sora od OpenAI. Ten byl představen v únoru a v tuto chvíli je zpřístupněn pro testování pouze profesionální sféře.
Pokud by byl přes veškeré restrikce a opatření stvořen podvrh, může laik vůbec nějak rozpoznat, že jde o falešné video, na němž řečník pronáší věty, které nikdy nevyslovil? Nyní údajně ještě ano – podrobnější zkoumání videí odhalí nepřirozené mrkání a přehnané pohyby obočí. Microsoft však věří, že tyto „vady na kráse“ jeho model překoná a tím zastíní i konkurenci.
„Teď jsme zkoušeli jeden produkt a člověk v jeho hlase slyšel drobné echo. Aby ho ale člověk slyšel a díky tomu odhalil nepravost, musí mít erudici, musí se problematikou zabývat. Jinak by ho ani nenapadlo, že je to něco divného,“ popisuje Petr Štros.
Odborník přidává i postřeh o přílišné, a tedy strojové dokonalosti umělé inteligence: „Když vám vygeneruje dejme tomu podobu hrušky či rajčete, budou mít tyhle plodiny tak ideální tvar i strukturu, že je to proti přírodě.“ Těžko však pochybovat, že i „chyby“ se umělá inteligence naučí brzy dělat úmyslně.