Modely umělé inteligence od OpenAI překonaly v diagnostické přesnosti zkušené lékaře. Ukazuje to nová studie publikovaná minulý týden v časopise Science, kterou vedl tým z Harvard Medical School a Beth Israel Deaconess Medical Center.
Studie obsahuje šest různých experimentů. V tom mediálně nejatraktivnějším výzkumníci porovnávali na 76 pacientech model o1 a 4o se dvěma lékaři interní medicíny.
Diagnózy následně posuzovali další dva lékaři, kteří nevěděli, zda hodnotí výstup od člověka, či stroje. Modely dostaly stejné informace, jaké měli k dispozici lékaři v daném případě.
Model o1 uhodl přesnou nebo velmi blízkou diagnózu ve dvou třetinách případů při prvotní triáži, což je proces třídění zraněných nebo nemocných osob. Lékaři ji trefili v 55, respektive 50 procentech případů.
S přibývajícími informacemi se rozdíl logicky zmenšoval – při přijetí na lůžkové oddělení dosáhl o1 úspěšnosti 82 procent, lékaři 70 a 79 procent.
„V každém diagnostickém kroku o1 dosáhl nominálně lepších nebo srovnatelných výsledků jako oba lékaři a model 4o,“ uvádí studie. Největší rozdíl byl při triáži, kdy je k dispozici nejméně informací a tlak na správné rozhodnutí nejvyšší.
Ještě pozoruhodnější rozdíl ukázaly další experimenty. Na klinických případech ze sady Grey Matters zaměřených na management léčby získal model o1-preview mediánu 89 procent. Lékaři s přístupem ke konvenčním zdrojům dosáhli mediánu 34 procent, lékaři vybavení GPT-4 jen 41 procent.
Na 143 komplexních lékařských případech publikovaných v prestižním New England Journal of Medicine model o1-preview navrhl správnou diagnózu v 78 procentech případů.
Autoři však výsledky značně relativizují. Studie podle nich testovala pouze textové výstupy – klinická medicína se však opírá i o vizuální informace, jako je interpretace zobrazovacích vyšetření (jako kupříkladu rentgen či CT), a sluchové signály, jako je míra pacientova rozrušení. V těchto oblastech současné modely podle výzkumů zaostávají.
Sami autoři studie navíc přiznávají, že jejich nejrámovanější experiment, který sledoval výkon AI na reálných pacientech z pohotovosti, je nejlépe chápat jako ověření konceptu.
Vůči interpretaci se ozvali i lékaři z praxe. Kristen Panthagani, urgentní lékařka, na svém blogu upozornila, že studie srovnávala AI s lékaři interní medicíny, nikoli s lékaři urgentní medicíny. „Mým hlavním cílem jako urgentního lékaře u nového pacienta není uhodnout konečnou diagnózu. Mým hlavním cílem je zjistit, zda jeho stav je život ohrožující,“ uvedla.
Adam Rodman, lékař z bostonské Both Israel a jeden z hlavních autorů studie, pro Guardian řekl, že kolem diagnóz od AI neexistuje žádný formální rámec odpovědnosti. Pacienti podle něj stále chtějí, aby je životně důležitými rozhodnutími provázel člověk.
Studie zkoumala model o1, respektive jeho preview verzi. Ten už byl mezitím nahrazen novější verzí o3.
Autoři předpokládají, že nové modely budou stejně dobré, nebo dokonce ještě lepší. Dodávají, že studie testovala pouze šest typů diagnostických úloh a že budou potřeba další studie pro prokázání umělé inteligence v praxi. „Naléhavě potřebujeme studie přímo v reálné nemocniční praxi,“ uzavírají.