Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

Forbes Česko, Redakce

OpenAI představila nové AI modely o3 a o4-mini, které mají vynikat v takzvaných „reasoning“ úlohách, tedy úlohách vyžadujících logické uvažování. Přestože dosahují lepších výsledků v oblastech programování nebo matematiky, podle interních testů si vymýšlejí nepravdivé informace častěji než jejich předchůdci.

Zatímco starší modely o1 a o3-mini si vymýšlely v patnácti procentech případů, model o3 si vymýšlel ve třetině, o4-mini dokonce v 48 procentech. Znepokojivé je především to, že OpenAI momentálně neví, proč k nárůstu dochází. Ve své technické zprávě firma uvádí, že „je potřeba další výzkum“. Firma upozorňuje, že větší počet různých tvrzení v odpovědích zákonitě vede i k vyššímu počtu nepřesností.

Třetí strany, jako výzkumná organizace Transluce, navíc upozorňují na případy, kdy si verze o3 vymýšlí i samotný proces odpovídání. Nepravdivé výpovědi snižují důvěryhodnost modelu v citlivých odvětvích, jako je právo nebo zdravotnictví.

Startupy jako Workera, která pomáhá firmám identifikovat dovednosti zaměstnanců, už nové modely testují v reálných firemních procesech a upozorňují na konkrétní nedostatky. Využívá model o3 při generování kódu a technických odpovědí. Přestože oceňuje jeho výkonnost, zdůrazňuje, že model si někdy vymýšlí nereálné webové odkazy – například odkáže na dokumentaci, která ve skutečnosti neexistuje nebo odkaz nefunguje.

Jedním z možných řešení, kterou OpenAI zvažuje, jak snížit míru nepřesností, je propojení modelů s webovým vyhledáváním. Například GPT-4o s přístupem k internetu dosahuje na testu SimpleQA až devadesátiprocentní přesnosti. OpenAI ale připouští, že potlačení nepřesností zůstává jednou z nejsložitějších výzev, se kterou se vývojáři budou muset i nadále potýkat.

Forbes Česko19. 4. 20252 min

Vyhledávání...

Nebyly nalezeny žádné výsledky. Zkuste prosím zadat jiné klíčové slovo!

...nebo si přečtěte rubriky

? – Jaroslav Beck

Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

Breaking News

Světový byznys

Témata

Více

Informace

Vyhledávání...

Nebyly nalezeny žádné výsledky. Zkuste prosím zadat jiné klíčové slovo!

...nebo si přečtěte rubriky

Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

ChatGPT v patách Googlu. OpenAI spustila internetový vyhledávač zdarma pro všechny

DeepSeek, kam se podíváš. Asijský konkurent ChatGPT si podmanil celou Čínu

Musk představil chatbota Grok 3. Konkurence ChatGPT i DeepSeeku má porozumět vesmíru

Breaking News

Světový byznys

K tématu