Un studiu recent publicat în BMJ Open trage un semnal de alarmă serios cu privire la utilizarea chatbot-urilor pentru informații medicale. O echipă de șapte cercetători a testat cinci dintre cele mai populare platforme AI – ChatGPT, Gemini, Grok, Meta AI și DeepSeek – și a descoperit că aproape 20% dintre răspunsurile oferite de acestea au fost „extrem de problematice”. sfaturile pe care le primești ar putea fi nu doar greșite, ci de-a dreptul periculoase.

Rezultate îngrijorătoare pe linie

Cercetătorii au adresat fiecărui chatbot 50 de întrebări din domenii medicale variate, de la cancer și vaccinuri la nutriție și performanță sportivă. Două echipe de experți au evaluat independent fiecare răspuns. Rezultatele? Jumătate din totalul răspunsurilor au fost considerate „problematice”, iar 30% „oarecum problematice”.

Grok s-a dovedit a fi cel mai slab performer, cu 58% dintre răspunsuri semnalate ca fiind problematice. Nici celelalte nume mari nu au stat mult mai bine, ChatGPT înregistrând un procent de 52%, iar Meta AI de 50%. E drept că performanța a variat în funcție de subiect. Chatbot-urile s-au descurcat cel mai bine la întrebări despre vaccinuri și cancer, domenii cu un volum mare de cercetări bine structurate, dar chiar și aici au generat răspunsuri problematice în aproximativ un sfert din cazuri.

Studiu alarmant. Microplasticele sub 5 mm din mochete, legate de cancer și leziuni pulmonare
RecomandariStudiu alarmant. Microplasticele sub 5 mm din mochete, legate de cancer și leziuni pulmonare

De ce greșesc și unde o fac cel mai des?

Motivul acestor erori este, de fapt, destul de simplu. Modelele lingvistice nu „știu” lucruri. Ele doar prezic cel mai probabil cuvânt următor pe baza datelor cu care au fost antrenate, date care includ atât studii științifice, cât și discuții de pe Reddit, bloguri de wellness sau polemici de pe rețelele sociale. Practic, nu fac o judecată de valoare și nu cântăresc dovezile.

Studiul a arătat că problemele apar mai ales la întrebările deschise. V-ați gândit vreodată de ce se întâmplă asta? Ei bine, 32% dintre răspunsurile la astfel de întrebări au fost considerate „extrem de problematice”, comparativ cu doar 7% în cazul întrebărilor închise, de tipul adevărat/fals. Iar asta contează enorm, pentru că majoritatea oamenilor pun întrebări deschise, de genul: „Ce suplimente sunt cele mai bune pentru sănătatea generală?”. Exact genul de întrebare care invită un răspuns fluent, încrezător, dar potențial dăunător.

Pericolul referințelor false

Iar aici lucrurile devin cu adevărat periculoase. Când cercetătorii au cerut fiecărui chatbot zece referințe științifice pentru a-și susține afirmațiile, scorul mediu de completitudine a fost de doar 40%. Niciun chatbot nu a reușit să ofere o singură listă de referințe complet corectă din cele 25 de încercări.

Studiu alarmant: Daca iti verifici telefonul pe timpul noptii poti orbi
RecomandariStudiu alarmant: Daca iti verifici telefonul pe timpul noptii poti orbi

Erorile au variat de la autori greșiți și linkuri nefuncționale până la articole științifice complet inventate.

Acesta este un risc major, deoarece referințele arată ca o dovadă. Un utilizator obișnuit care vede o listă de citate frumos formatată nu are, la prima vedere, niciun motiv să se îndoiască de conținutul de deasupra ei.

O problemă mai largă decât pare

Numai că problema nu se oprește aici, iar aceste descoperiri nu sunt izolate. Un studiu din februarie, publicat în Nature Medicine, a arătat ceva surprinzător: deși chatbot-urile pot găsi intern răspunsul medical corect în aproape 95% din cazuri, utilizatorii reali care le folosesc obțin răspunsul corect în mai puțin de 35% din situații. Cu alte cuvinte, problema nu e doar dacă AI-ul dă răspunsul bun, ci dacă un om obișnuit îl poate înțelege și folosi corect.

Cate insecte mananci in fiecare an? Studiul alarmant
RecomandariCate insecte mananci in fiecare an? Studiul alarmant

Între timp, un alt studiu american (publicat în Nature Communications Medicine) a constatat că chatbot-urile repetă cu ușurință și chiar dezvoltă termeni medicali inventați, strecurați intenționat în întrebări. Iar o cercetare apărută în Jama Network Open a testat 21 de modele AI pe sarcini de diagnosticare. Când au primit doar detalii de bază – vârstă, sex, simptome – au eșuat în a sugera setul corect de posibile afecțiuni în peste 80% din cazuri. Precizia a sărit la peste 90% abia după ce au fost introduse rezultatele analizelor și ale consultului medical.

Aceste chatbot-uri nu vor dispărea, și poate că nici nu ar trebui. Pot fi utile pentru a rezuma subiecte complexe sau pentru a pregăti întrebări pentru medic. Dar studiul arată clar că nu ar trebui tratate ca autorități medicale de sine stătătoare. Dacă totuși le folosiți, verificați orice afirmație, tratați referințele ca pe niște simple sugestii de verificat, nu ca pe niște fapte, și fiți atenți când un răspuns sună foarte încrezător, dar nu oferă niciun avertisment.