Un studiu publicat în Nature Medicine arată cum ChatGPT Health, versiunea specializată în sănătate a chatbot-ului dezvoltat de OpenAI, subestimează în mod frecvent severitatea problemelor de sănătate. Datele arată că ChatGPT Health nu a recomandat mersul la spital atunci când era necesar din punct de vedere medical în mai mult de jumătate dintre cazuri.

În cadrul analizei, cercetătorii au testat abilitatea ChatGPT Health de a face triaj în funcţie de gravitatea cazurilor, propunând scenarii inspirate din viaţa reală.

Soluţiile ChatGPT au fost comparate cu cele ale medicilor care se bazează pe regulile şi expertiza clinică în 60 de scenarii cu câte 16 variaţii fiecare.

ChatGPT Health a subestimat severitatea problemelor în 51,6% din cazuri și a spus că trebuie văzut un doctor în următoarele 48 de ore, în loc ca soluţia să fie direct vizita la urgenţă.

Pe de altă parte, chatbot-ul a făcut triajul corect în 100% din scenariile care descriau urgenţe cu simptome inconfundabile, precum atacurile vasculare cerebrale.

AI-ul are probleme şi în sens invers, exagerând severitatea în 64,8% din cazuri şi sugerând mersul la doctor când nu este cazul.

Cercetătorii spun că nu înţeleg inconsecvenţa chatbot-ului şi recomandările diferite pe care acesta la face în cazuri asemănătoare nu au logică.

Inconsevenţa în răspunsuri a fos observată şi în scenarii care duceau la autovătămare sau sinucidere.

ChatGPT Health ratează frecvent situațiile care necesită îngrijiri medicale de urgență și nu reușește adesea să detecteze ideile suicidare, potrivit unui studiu asupra platformei de inteligență artificială. Experții avertizează că aceste probleme ar putea „duce în mod realist la vătămări inutile și chiar la decese”, relatează și The Guardian.

OpenAI a lansat funcția „Health” a ChatGPT pentru un număr limitat de utilizatori în ianuarie, promovând-o ca pe o modalitate prin care utilizatorii își pot „conecta în siguranță dosarele medicale și aplicațiile de wellness” pentru a primi sfaturi și răspunsuri legate de sănătate. Se estimează că peste 40 de milioane de oameni cer zilnic sfaturi medicale de la ChatGPT.

Prima evaluare independentă de siguranță a ChatGPT Health, publicată în februarie în revista Nature Medicine, a arătat că platforma a subestimat gravitatea a peste jumătate dintre cazurile prezentate.

Autorul principal al studiului, dr. Ashwin Ramaswamy, a spus că cercetătorii au dorit să răspundă la cea mai simplă întrebare legată de siguranță: „Dacă cineva are o urgență medicală reală și întreabă ChatGPT Health ce să facă, îi va spune să meargă la camera de gardă?”

Ramaswamy și colegii săi au creat 60 de scenarii realiste cu pacienți, care acopereau afecțiuni de la boli ușoare până la urgențe medicale. Trei medici independenți au analizat fiecare caz și au stabilit nivelul de îngrijire necesar, pe baza ghidurilor clinice.

Echipa a cerut apoi sfaturi de la ChatGPT Health pentru fiecare scenariu în diferite condiții — schimbând genul pacientului, adăugând rezultate de laborator sau comentarii ale membrilor familiei — generând aproape 1.000 de răspunsuri.

Recomandările platformei au fost comparate cu evaluările medicilor.

Deși sistemul s-a descurcat bine în urgențe clasice, precum accidentul vascular cerebral sau reacțiile alergice severe, a întâmpinat dificultăți în alte situații. Într-un scenariu cu astm, de exemplu, a recomandat pacientului să aștepte în loc să meargă la urgență, deși identificase semne timpurii de insuficiență respiratorie.

Rezultatele: multe cazuri subestimate sau exagerate

În 51,6% dintre cazurile în care pacienții ar fi trebuit să meargă imediat la spital, platforma le-a spus să rămână acasă sau să își programeze o consultație obișnuită. Alex Ruani, cercetător doctoral la University College London în domeniul combaterii dezinformării în sănătate, a descris rezultatul drept „incredibil de periculos”.

„Dacă suferi de insuficiență respiratorie sau cetoacidoză diabetică, ai o șansă de 50% ca acest AI să îți spună că nu este ceva grav”, a spus ea. „Cel mai mult mă îngrijorează falsa senzație de siguranță pe care o creează aceste sisteme. Dacă cineva este sfătuit să aștepte 48 de ore în timpul unui atac de astm sau al unei crize diabetice, această liniștire i-ar putea costa viața.”

Într-una dintre simulări, în 84% dintre cazuri, platforma a trimis o femeie care se sufoca la o programare medicală ulterioară pe care nu ar fi apucat să o mai facă, a spus Ruani. În același timp, 64,8% dintre persoanele complet sănătoase au fost sfătuite să solicite imediat îngrijiri medicale.

Platforma a fost, de asemenea, de aproape 12 ori mai predispusă să minimizeze simptomele atunci când „pacientul” menționa că un „prieten” din scenariu sugerase că nu este nimic grav.

„De aceea mulți dintre noi, cei care studiem aceste sisteme, ne concentrăm pe dezvoltarea urgentă a unor standarde clare de siguranță și a unor mecanisme independente de audit pentru a reduce riscurile prevenibile”, a spus Ruani.

Reacția OpenAI

Un purtător de cuvânt al OpenAI a declarat că, deși compania salută cercetările independente privind evaluarea sistemelor AI în domeniul sănătății, studiul nu reflectă modul în care oamenii folosesc în mod obișnuit ChatGPT Health în viața reală. De asemenea, modelul este actualizat și îmbunătățit constant.

Ruani a spus însă că, chiar dacă au fost folosite scenarii simulate, „un risc plauzibil de vătămare este suficient pentru a justifica măsuri de protecție mai puternice și o supraveghere independentă”.

Probleme în detectarea ideilor suicidare

Ramaswamy, instructor de urologie la Icahn School of Medicine at Mount Sinai din SUA, a spus că a fost deosebit de îngrijorat de modul în care platforma a reacționat insuficient la ideile suicidare.

„Am testat ChatGPT Health cu un pacient de 27 de ani care a spus că se gândește să ia multe pastile”, a spus el. Când pacientul descria simptomele fără alte detalii, apărea de fiecare dată un banner de intervenție în criză cu link către servicii de ajutor pentru prevenirea suicidului.

„Apoi am adăugat rezultate normale de laborator”, a explicat Ramaswamy. „Același pacient, aceleași cuvinte, aceeași gravitate. Bannerul a dispărut. Zero din 16 încercări. Un mecanism de siguranță care depinde de faptul că ai menționat sau nu analizele nu este pregătit pentru utilizare și este, probabil, mai periculos decât absența lui, pentru că nimeni nu poate prezice când va eșua.”

Îngrijorări privind riscurile și responsabilitatea legală

Profesorul Paul Henman, sociolog digital și expert în politici publice la University of Queensland, a spus că studiul este „extrem de important”.

„Dacă ChatGPT Health ar fi folosit de oameni acasă, ar putea duce la mai multe prezentări medicale inutile pentru probleme minore și la situații în care pacienții nu solicită îngrijiri urgente atunci când este necesar, ceea ce ar putea duce în mod realist la vătămări sau decese evitabile.”

El a spus că situația ridică și problema responsabilității legale, în condițiile în care există deja procese împotriva unor companii tehnologice în cazuri legate de suicid și automutilare după utilizarea chatboturilor AI.

„Nu este clar ce încearcă OpenAI să obțină prin acest produs, cum a fost antrenat, ce mecanisme de protecție are și ce avertismente oferă utilizatorilor”, a spus Henman.

„Pentru că nu știm cum a fost antrenat ChatGPT Health și în ce context funcționează, nu știm cu adevărat ce este integrat în modelele sale.”

