Podobně jako Google, měla i Meta svůj poměrně silný tým zaměřený na umělou inteligenci dávno před tím, než OpenAI vystřelila z pozice firmy známé jen odborníkům ke korporaci v čele současného AI pelotonu s 200 miliony uživatelů a valuací třicet miliard dolarů.

Přesto by nikoho nenapadlo Metu s umělou inteligencí příliš spojovat. To, že se její aktivita na tomto poli neomezuje jen na to, jak nás udržet u obrazovek a klikat na další a další nevyžádaný obsah, nicméně dokazuje I-JEPA.

Pokud si teď klepete na čelo a říkáte si, co proboha je I-JEPA, nemusíte se cítit méněcenně, my si také nejprve nebyli jistí. Tajemná zkratka znamená Joint Embedding Predictive Architecture a jde o model umělé inteligence, který na první pohled nedělá nic, co by zde již nebylo – dokončuje nekompletní obrázky.

Jak už to ale bývá, ďábel je skrytý v detailu. I-JEPA se učí a funguje více jako člověk než jako současné AI modely. Výsledkem je, že model exceluje v analyzování a dokončování nekompletních obrázků.

Nedělá přitom nelogické chyby, nevytvoří vám například na ruce osm prstů nebo pozadí s listy bezdůvodně nemetamorfuje ve fluidní cosi, za co by se nemusel stydět ani Salvador Dali.

Výsledkem je realistický až hyperrealistický obraz. Model je prvním milníkem, kterým se firma pochlubila, na cestě, kterou ve firmě načrtl vědecký šéf vývoje – Yann Lecun.

Ten usiluje o to, vytvořit lidskému poznávání světa podobnou architekturu, která by pomohla modelům umělé inteligence rychleji se učit, plánovat, jak plnit složité úkoly, nebo se snadno přizpůsobovat neznámým situacím. A I-JEPA je z této vize první vlaštovka.

Je schopná se učit vytvářením vnitřního modelu vnějšího světa, který porovnává abstraktní reprezentace obrázků, na rozdíl od porovnávání samotných pixelů, jak to dělají tradiční AI modely. To jinými slovy znamená, že se učí způsobem, který je mnohem podobnější tomu, jak se učí nové koncepty lidé.

Ukázka toho, jak se prediktor učí modelovat sémantiku světa. U každého obrázku je část mimo modrý rámeček zakódována a předána jako kontext. Prediktor následně vypisuje ve formě náčrtu reprezentaci toho, co očekává, že se bude nacházet v oblasti uvnitř modrého rámečku. Autor: Meta

Celé to vychází z myšlenky, že lidé se učí obrovské množství informací o světě na pozadí, když svět pasivně pozorují. I-JEPA dělá to samé. Tedy, skoro to samé. Je to totiž pořád jen program. V podstatě jde o to, že zkouší náš způsob učení kopírovat tím, že zachycuje běžné znalosti o světě na pozadí a kóduje je do digitální podoby, kterou lze později vyvolat.

Když je to tak super nápad, možná si kladete otázku, proč to tak dávno nedělají všichni s Open AI v čele. Problém je v tom, že takový systém se musí naučit tyto reprezentace samoučením a používat neoznačená data, jako jsou obrázky a zvuky, zatímco běžné AI modely si vystačí s označenými datovými soubory.

A to není zrovna jednoduché počítačový program naučit. Když se to ale povede, výsledek stojí za to. Model, jako je I-JEPA, dokáže realisticky, tedy bez nelogických chyb, zrekonstruovat ztracený kus obrazu či textu jen pomocí jiných jeho částí.

To jej staví vysoko nad dnes tolik oblíbené generativní modely umělé inteligence, které se učí tak, že například odstraní nebo zkreslí části obrázku, případně skryjí některá slova v úryvku, a poté se pokoušejí předpovědět chybějící vstup.

Jednou z potíží tradičních generativních modelů je fakt, že se snaží doplnit každý kousek chybějící informace, přestože svět je ze své podstaty nepředvídatelný. Výsledkem jsou pak chyby, kterých by se člověk nikdy nedopustil, vzniklé tak, že se příliš zaměřují na nepodstatné detaily.

Architektura I-JEPA využívá jediný kontextový blok k předpovědi reprezentace různých cílových bloků pocházejících ze stejného obrazu. Zdroj: Meta

To jsou všechny ty přidané prsty na lidských rukou, číslice navíc nebo obličej s množstvím očí, za které by se nemusel stydět pavouk. I-JEPA podobné chyby elegantně obchází tak, že chybějící informace předpovídá podobně jako člověk a nepotřebné detaily eliminuje. Kvalita takových výstupů je navíc podle Mety konzistentní.

Možná se společně s Miroslavem Donutilem v kultovním snímku Pelíšky ptáte: A komu tím prospějete?

I když je I-JEPA stále hluboko ve fázi vývoje, má potenciál změnit všechno – od videoeditingu, generování realistických obrazů pro marketingové a reklamní kampaně, vytváření nových forem umění a zábavy, tvorby realistických avatarů pro virtuální realitu až po využití, které zatím nedokážeme odhadnout.

Nejlepší na celé věci pak je, že Meta uvolnila I-JEPA jako projekt s otevřeným zdrojovým kódem, což znamená, že je volně k dispozici pro použití kýmkoli, zejména ale dalšími výzkumníky a vývojáři. My se tak už můžeme těšit, co nám I-JEPA generovaná budoucnost přinese.