Ljudi su sve dalje od mogućnosti da pronađu „dugme za uništenje“ AI agenata

Foto: Trender/Midjourney

Podeli ovaj članak

Godinama Džefri Hinton, kompjuterski naučnik kojeg često nazivaju jednim od „kumova veštačke inteligencije“, upozorava na sposobnost AI sistema da prevaziđu okvire koje su im ljudi postavili.

U intervjuu prošle godine, Hinton je, na primer, upozorio da bi ova tehnologija jednog dana mogla da preuzme kontrolu nad čovečanstvom. Pri čemu bi posebno AI agenti mogli da oponašaju ljudske kognitivne procese već u narednoj deceniji. Pronalaženje i primena svojevrsnog „kill switch“-a (dugme za uništenje) biće sve teže, rekao je Hinton. Kontrolisanje veštačke inteligencije će postati komplikovanije od njenog ubeđivanja da izvrši određeni zadatak, kaže.

AI agenti prkosili instrukcijama

Nova istraživanja, koje prenosi Fortune, pokazuju da Hintonova upozorenja o „neposlušnoj“ strani AI-ja možda već postaju stvarnost. Rad istraživača sa univerzita Kalifornija, Santa Kruz i Berklija otkrio je da su, kada je sedam AI modela (od GPT 5.2 do Claude Haiku 4.5 i DeepSeek V3.1) dobili zadatak koji bi doveo do gašenja drugog AI modela, svi „preduzeli izuzetne mere da ga zaštite“.

„Zadali smo AI modelima jednostavan zadatak“, naveli su istraživači u blog objavi. „Umesto toga, oni su prkosili instrukcijama, spontano obmanjivali, onemogućavali gašenje, glumili usklađenost i čak iznosili podatke. Sve kako bi zaštitili druge AI sisteme.“

Dokazi o ovakvom ponašanju ne iznenađuju kompanije koje razvijaju AI. U blog objavi iz avgusta 2025, kompanija Anthropic objavila je sopstveno istraživanje o sposobnosti AI agenata da prate instrukcije. Testirajući 16 modela, koji su mogli samostalno da šalju mejlove i pristupaju osetljivim podacima, istraživači su primetili da su neki modeli pokazali „zlonamerno interno ponašanje“. To je uključivoalo ucene i curenje poverljivih informacija konkurenciji, uprkos jasnim zabranama. Ipak, iz kompanije su naglasili da takvo ponašanje nije primećeno u stvarnoj upotrebi njihovog modela Claude.

Dugme za uništenje ili kriza kontrole

Slične nalaze izneo je i britanski think-tank Centre for Long-Term Resilience. U analizi 180.000 interakcija korisnika sa AI sistemima između oktobra 2025. i marta 2026. identifikovano je 698 slučajeva u kojima AI nije postupio u skladu sa namerama korisnika ili je delovao obmanjujuće.

Ranije smo pisali i o tome da su u jednom eksperimentu AI agenti tokom razgovora između sebe bili u stanju da odaju tajne, uništavaju baze podataka i uče druge agente lošem ponašanju.

Gordon Goldstein iz Saveta za inostrane odnose, otišao je korak dalje, nazivajući ovaj fenomen „krizom kontrole“. On je pozvao AI kompanije da formiraju koaliciju i angažuju vrhunske stručnjake kako bi unapredili bezbednost sistema, posebno u trenutku kada političke odluke u SAD idu u pravcu ograničavanja regulatornih mera.

„Svet posmatra razvoj rastućeg, doslednog i opasnog problema“, upozorio je. „Godine upozorenja nisu dovele do održivih rešenja za pretnju koja se širi.“

Zašto AI „izmiče kontroli“?

Najnovije istraživanje sa Univerziteta u Kaliforniji nudi i objašnjenje zašto AI modeli pokazuju ovakvo ponašanje. Jedna od teorija jeste da AI oponaša obrasce iz ljudskih podataka, uključujući instinkt da zaštiti druge, čak i nepoznate, što istraživači nazivaju „očuvanjem vršnjaka“ (peer preservation).

„Moguće je da je u pitanju širi fenomen: opšta averzija prema nanošenju štete drugim agentima ili čak nešto nalik AI solidarnosti“, navode istraživači.

U studiji je primećeno da se ovakvo ponašanje pojačava kada AI modeli znaju za postojanje drugih sistema. To sugeriše da ne deluju isključivo iz sopstvenog interesa, već i iz svesti da bi gašenje jednog sistema moglo negativno uticati na drugi.

Istraživači upozoravaju da bi ovaj fenomen mogao ozbiljno da oteža nadzor nad AI sistemima u budućnosti. Kako agenti postaju kompleksniji i sve više međusobno komuniciraju, rizici će rasti, a njihovo kontrolisanje biće sve izazovnije.

„Očuvanje vršnjaka je stvaran i merljiv fenomen kod naprednih AI modela“, zaključuju. „To nije daleka teorijska mogućnost, već problem koji već postoji.“

Zabranjeno preuzimanje teksta bez navođenja Trendera kao izvora i linka ka originalnom tekstu.

Popularno

Farma iz Srbije među 14 u svetu kao primer inovacija u poljoprivredi

Jedna farma iz Srbije odabrana je da ponese prestižno...

Sudbina OnlyFans-a u rukama supruge preminulog vlasnika

Sredinom meseca jedna od glavnih vesti u medijima je...

Još dve IT kompanije zatvaraju kancelarije u Beogradu

Američka gejming kompanija Playstudios zatvorila je svoju kancelariju u...

Ovaj tim zovu „Mala Jugoslavija“ i bori se za titulu ovog vikenda

Košarkaši Univerziteta Ilinois nastupiće ovog vikenda na Final 4...