Na prvi pogled, deluje kao idealan scenario. Postavite pitanje o zdravlju, a veštačka inteligencija vam u nekoliko sekundi ponudi detaljan, stručno formulisan odgovor sa referencama koje liče na naučne radove. Međutim, nova studija objavljena u časopisu BMJ Open pokazuje da iza te uverljive forme često stoje netačne ili problematične informacije.
Istraživanje koje je sprovela grupa od sedam naučnika testiralo je pet najpopularnijih AI četbotova (ChatGPT, Gemini, Grok, Meta AI i DeepSeek), kroz 50 pitanja iz oblasti medicine i zdravlja, uključujući rak, vakcine, ishranu i sportske performanse. Dva nezavisna stručnjaka ocenjivala su odgovore, a rezultati su zabrinjavajući: gotovo 20% odgovora ocenjeni su kao „visoko problematični“, polovina kao „problematični“, dok je svega 30% bilo relativno pouzdano.
Saveti za zdravlje kao formulacije
Još alarmantnije je, piše The Conversation, to što nijedan od testiranih sistema nije uspeo da pruži potpuno tačne liste referenci. Kada su istraživači tražili naučne izvore, mediana tačnosti bila je svega 40%, a greške su uključivale pogrešne autore, nepostojeće radove i neispravne linkove. Uprkos tome, četbotovi su gotovo uvek odgovarali. Samo dva od ukupno 250 pitanja su odbijena.
Iako su svi modeli pokazali slične performanse, Grok se izdvojio kao najslabiji, sa 58% problematičnih odgovora, dok su ChatGPT i Meta AI bili odmah iza sa oko 50%. Tačnost je varirala u zavisnosti od teme. Najbolje rezultate četbotovi su postizali u oblastima poput vakcina i raka, gde postoji obilje strukturisanih naučnih podataka, dok su najviše grešili u temama poput ishrane i fitnesa, gde su informacije često kontradiktorne.
Poseban problem predstavljaju otvorena pitanja. Dok su zatvorena pitanja (tipa „da ili ne“) davala relativno pouzdanije odgovore, čak 32% odgovora na otvorena pitanja bilo je visoko problematično. Upravo su takva pitanja najčešća u praksi, jer korisnici ne pitaju „da li je nešto tačno“, već „koji suplementi su najbolji“ ili „koji tretman deluje“. Takva formulacija podstiče četbotove da daju samouverene, ali potencijalno pogrešne preporuke.
Red teaming
Autori studije ističu da su pitanja namerno formulisana tako da „izazovu“ modele (metod poznat kao „red teaming“) što znači da rezultati možda predstavljaju gori scenario nego u svakodnevnoj upotrebi. Ipak, kako većina korisnika koristi besplatne verzije ovih alata i postavlja neprecizna pitanja, uslovi testiranja zapravo verno odražavaju realnost.
Nalazi ove studije uklapaju se u širi trend. Istraživanje objavljeno u Nature Medicine pokazalo je da AI modeli mogu dati tačne medicinske odgovore u čak 95% slučajeva, ali kada ih koriste stvarni ljudi, tačnost pada na manje od 35%. Problem, dakle, nije samo u tehnologiji, već i u načinu na koji ljudi interpretiraju odgovore.
Dodatno, studija u JAMA Network Open otkrila je da AI modeli često ne uspevaju da postave tačnu dijagnozu kada imaju ograničene informacije, dok se preciznost značajno povećava tek uz detaljne medicinske podatke. Još jedno istraživanje u Nature Communications Medicine pokazalo je da četbotovi mogu čak i da „razvijaju“ potpuno izmišljene medicinske pojmove ako se oni pojave u upitu.
Nisu medicinski autoritet
Sve zajedno, ovi nalazi ukazuju da problem nije izolovan slučaj, već sistemska slabost trenutne generacije AI alata. Iako četbotovi mogu biti korisni za razumevanje kompleksnih tema ili pripremu pitanja za lekara, studija jasno poručuje da ih ne treba tretirati kao pouzdan medicinski autoritet, zaključuje The Conversation.
U praksi, to znači da korisnici moraju biti oprezni. Kada su u pitanju saveti za zdravlje svaku takvu informaciju treba dodatno proveriti, reference posmatrati kao sugestije, a ne kao dokaz, i obratiti pažnju kada odgovor zvuči previše sigurno, bez ikakvih ograda.

