Godinama Džefri Hinton, kompjuterski naučnik kojeg često nazivaju jednim od „kumova veštačke inteligencije“, upozorava na sposobnost AI sistema da prevaziđu okvire koje su im ljudi postavili.
U intervjuu prošle godine, Hinton je, na primer, upozorio da bi ova tehnologija jednog dana mogla da preuzme kontrolu nad čovečanstvom. Pri čemu bi posebno AI agenti mogli da oponašaju ljudske kognitivne procese već u narednoj deceniji. Pronalaženje i primena svojevrsnog „kill switch“-a (dugme za uništenje) biće sve teže, rekao je Hinton. Kontrolisanje veštačke inteligencije će postati komplikovanije od njenog ubeđivanja da izvrši određeni zadatak, kaže.
AI agenti prkosili instrukcijama
Nova istraživanja, koje prenosi Fortune, pokazuju da Hintonova upozorenja o „neposlušnoj“ strani AI-ja možda već postaju stvarnost. Rad istraživača sa univerzita Kalifornija, Santa Kruz i Berklija otkrio je da su, kada je sedam AI modela (od GPT 5.2 do Claude Haiku 4.5 i DeepSeek V3.1) dobili zadatak koji bi doveo do gašenja drugog AI modela, svi „preduzeli izuzetne mere da ga zaštite“.
„Zadali smo AI modelima jednostavan zadatak“, naveli su istraživači u blog objavi. „Umesto toga, oni su prkosili instrukcijama, spontano obmanjivali, onemogućavali gašenje, glumili usklađenost i čak iznosili podatke. Sve kako bi zaštitili druge AI sisteme.“
Dokazi o ovakvom ponašanju ne iznenađuju kompanije koje razvijaju AI. U blog objavi iz avgusta 2025, kompanija Anthropic objavila je sopstveno istraživanje o sposobnosti AI agenata da prate instrukcije. Testirajući 16 modela, koji su mogli samostalno da šalju mejlove i pristupaju osetljivim podacima, istraživači su primetili da su neki modeli pokazali „zlonamerno interno ponašanje“. To je uključivoalo ucene i curenje poverljivih informacija konkurenciji, uprkos jasnim zabranama. Ipak, iz kompanije su naglasili da takvo ponašanje nije primećeno u stvarnoj upotrebi njihovog modela Claude.
Dugme za uništenje ili kriza kontrole
Slične nalaze izneo je i britanski think-tank Centre for Long-Term Resilience. U analizi 180.000 interakcija korisnika sa AI sistemima između oktobra 2025. i marta 2026. identifikovano je 698 slučajeva u kojima AI nije postupio u skladu sa namerama korisnika ili je delovao obmanjujuće.
Ranije smo pisali i o tome da su u jednom eksperimentu AI agenti tokom razgovora između sebe bili u stanju da odaju tajne, uništavaju baze podataka i uče druge agente lošem ponašanju.
Gordon Goldstein iz Saveta za inostrane odnose, otišao je korak dalje, nazivajući ovaj fenomen „krizom kontrole“. On je pozvao AI kompanije da formiraju koaliciju i angažuju vrhunske stručnjake kako bi unapredili bezbednost sistema, posebno u trenutku kada političke odluke u SAD idu u pravcu ograničavanja regulatornih mera.
„Svet posmatra razvoj rastućeg, doslednog i opasnog problema“, upozorio je. „Godine upozorenja nisu dovele do održivih rešenja za pretnju koja se širi.“
Zašto AI „izmiče kontroli“?
Najnovije istraživanje sa Univerziteta u Kaliforniji nudi i objašnjenje zašto AI modeli pokazuju ovakvo ponašanje. Jedna od teorija jeste da AI oponaša obrasce iz ljudskih podataka, uključujući instinkt da zaštiti druge, čak i nepoznate, što istraživači nazivaju „očuvanjem vršnjaka“ (peer preservation).
„Moguće je da je u pitanju širi fenomen: opšta averzija prema nanošenju štete drugim agentima ili čak nešto nalik AI solidarnosti“, navode istraživači.
U studiji je primećeno da se ovakvo ponašanje pojačava kada AI modeli znaju za postojanje drugih sistema. To sugeriše da ne deluju isključivo iz sopstvenog interesa, već i iz svesti da bi gašenje jednog sistema moglo negativno uticati na drugi.
Istraživači upozoravaju da bi ovaj fenomen mogao ozbiljno da oteža nadzor nad AI sistemima u budućnosti. Kako agenti postaju kompleksniji i sve više međusobno komuniciraju, rizici će rasti, a njihovo kontrolisanje biće sve izazovnije.
„Očuvanje vršnjaka je stvaran i merljiv fenomen kod naprednih AI modela“, zaključuju. „To nije daleka teorijska mogućnost, već problem koji već postoji.“

