OpenAI představila nové AI modely o3 a o4-mini, které mají vynikat v takzvaných „reasoning“ úlohách, tedy úlohách vyžadujících logické uvažování. Přestože dosahují lepších výsledků v oblastech programování nebo matematiky, podle interních testů si vymýšlejí nepravdivé informace častěji než jejich předchůdci.
Zatímco starší modely o1 a o3-mini si vymýšlely v patnácti procentech případů, model o3 si vymýšlel ve třetině, o4-mini dokonce v 48 procentech. Znepokojivé je především to, že OpenAI momentálně neví, proč k nárůstu dochází. Ve své technické zprávě firma uvádí, že „je potřeba další výzkum“. Firma upozorňuje, že větší počet různých tvrzení v odpovědích zákonitě vede i k vyššímu počtu nepřesností.
Třetí strany, jako výzkumná organizace Transluce, navíc upozorňují na případy, kdy si verze o3 vymýšlí i samotný proces odpovídání. Nepravdivé výpovědi snižují důvěryhodnost modelu v citlivých odvětvích, jako je právo nebo zdravotnictví.
Startupy jako Workera, která pomáhá firmám identifikovat dovednosti zaměstnanců, už nové modely testují v reálných firemních procesech a upozorňují na konkrétní nedostatky. Využívá model o3 při generování kódu a technických odpovědí. Přestože oceňuje jeho výkonnost, zdůrazňuje, že model si někdy vymýšlí nereálné webové odkazy – například odkáže na dokumentaci, která ve skutečnosti neexistuje nebo odkaz nefunguje.
Jedním z možných řešení, kterou OpenAI zvažuje, jak snížit míru nepřesností, je propojení modelů s webovým vyhledáváním. Například GPT-4o s přístupem k internetu dosahuje na testu SimpleQA až devadesátiprocentní přesnosti. OpenAI ale připouští, že potlačení nepřesností zůstává jednou z nejsložitějších výzev, se kterou se vývojáři budou muset i nadále potýkat.