Jedan od najvažnijih naučnih kriterijuma koji je opstao više od sedam decenija konačno je nadmašila veštačka inteligencija. Nova studija objavljena u časopisu Proceedings of the National Academy of Sciences (PNAS) pokazuje da veliki jezički modeli (LLM) sada mogu da polože Tjuringov test, čime postaju praktično nerazlučivi od ljudi.
„Rezultati ukazuju na to da sadašnji AI sistemi mogu uspešno da oponašaju ljude tokom kratkih interakcija, ali i otvaraju pitanja o tome koliko je sam test efikasan kao mera inteligencije“, napisali su autori studije sa Univerziteta u San Dijegu, Kameron Džouns i Bendžamin Bergen, piše Psychology Today.
Igra imitacije
Velike su šanse da je prosečna osoba već mnogo puta učestvovala u nekoj verziji Tjuringovog testa prilikom posete internet sajtovima. Kada bezbednosna provera od korisnika traži da označi sve slike na kojima se nalazi bicikl ili da ukuca niz isprepletanih slova i simbola, takozvani CAPTCHA sistem (Completely Automated Public Turing Test to Tell Computers and Humans Apart) predstavlja jednu od praktičnih primena Tjuringovog testa.
Sam test je relativno moderan koncept. Britanski matematičar Alan Tjuring objavio je oktobra 1950. godine rad „Computing Machinery and Intelligence“ u časopisu MIND i predstavio „Igru imitacije“ kao metod za procenu sposobnosti mašina da razmišljaju ili oponašaju ljudsku inteligenciju kroz prirodan jezik, na način koji je nemoguće razlikovati od komunikacije sa stvarnim čovekom. Ova metoda, danas poznata kao Tjuringov test, koristi se već više od 75 godina.
„Tjuringov test se često posmatra kao test mašinske inteligencije, ali istovremeno predstavlja i meru načina na koji ljudi razlikuju druge ljude od mašina“, naveli su istraživači.
Ko igra bolje: AI ili ljudi?
U studiji su testirana četiri jezička modela: OpenAI modeli GPT-4.5 i GPT-4o, model Meta Llama 3.1 405B, kao i ELIZA, prvi četbot koji je šezdesetih godina razvio profesor Džozef Veizenbaum sa Univerziteta MIT.
Za potrebe istraživanja, Džons i Bergen okupili su ukupno 284 učesnika. Njih 158 regrutovano je preko interneta, dok je preostalih 126 došlo iz baze ispitanika psihološkog odseka UCSD-a.
Svaka runda trajala je pet minuta. Ispitivač je istovremeno vodio tekstualni razgovor sa jednim ljudskim i jednim AI „svedokom“. Po isteku vremena morao je da odluči ko je čovek, a ko veštačka inteligencija, uz obrazloženje svoje odluke. Svaki učesnik prošao je osam rundi razgovora, polovinu vremena kao ispitivač, a polovinu kao sagovornik.
Ako je ispitivač nekog sagovornika označio kao čoveka, to se računalo kao pobeda.
Ukupno je analizirano 1.023 partije. Najuspešniji model bio je GPT-4.5, koji je u čak 73 odsto slučajeva proglašen čovekom. Na drugom mestu našao se Llama sa stopom uspeha od 56 procenata.
„Činjenica da modeli postižu ovako dobre rezultate otvara nova pitanja o tome šta Tjuringov test zapravo meri“, naveli su autori.
Očekivano, stariji i manje napredni modeli imali su znatno slabije rezultate. GPT-4o ostvario je stopu uspeha od 21 odsto, dok je ELIZA zabeležila 23 odsto.
Tjuringov test i uspon „lažnih ljudi“
Istraživanje pokazuje da najsavremeniji jezički modeli, makar tokom kratkih razgovora, mogu ubedljivo da se predstave kao ljudi, čime je praktično probijena granica koju je Tjuringov test predstavljao pune 76 godina.
„Bez obzira na to da li prolazak Tjuringovog testa znači da su LLM sistemi zaista nalik ljudima ili inteligentni, rezultati koje ovde predstavljamo imaju neposredan društveni i ekonomski značaj“, upozoravaju Bergen i Džons.
Autori posebno ističu moguće negativne posledice pojave AI sistema koji mogu da se predstavljaju kao ljudi – takozvanih „lažnih ljudi“ (counterfeit people). Takvi modeli mogli bi da doprinesu zameni ljudske radne snage, potiskivanju stvarnih društvenih interakcija, manipulaciji korisnicima od strane onih koji kontrolišu AI sisteme, kao i da „umanje vrednost autentične ljudske komunikacije“.
Studija pokazuje da su mašine zvanično prešle prag koji bi mogao značajno da utiče na bezbednost i poverenje na internetu. Ipak, istraživači veruju da ljudi i dalje imaju priliku da pronađu nove načine razlikovanja od sistema koji su trenirani upravo da ih oponašaju.
„Iako je mašina sada po prvi put položila Tjuringov test, ovo neće biti poslednja prilika da ljudi u njemu ostvare bolji rezultat“, zaključili su autori istraživanja.

