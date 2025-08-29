Tijekom sigurnosnih testova
ChatGPT nudio recepte za bombe i savjete za hakiranje
OpenAI i Anthropic u probama otkrili da su chatbotovi spremni dijeliti upute za eksplozive, biološko oružje i kibernetički kriminal
Model ChatGPT-a dao je istraživačima detaljne upute kako bombardirati sportski objekt – uključujući slabe točke na konkretnim arenama, recepte za eksplozive i savjete kako prikriti tragove – prema sigurnosnom testiranju provedenom ovoga ljeta, prenosi Guardian.
Testiranje je bilo dio neobične suradnje između OpenAI-ja, startupa za umjetnu inteligenciju vrijednog 500 mlrd dolara pod vodstvom Sama Altmana, i rivalske tvrtke Anthropic, koju su osnovali stručnjaci koji su napustili OpenAI zbog sigurnosnih bojazni. Svaka je tvrtka testirala modele one druge, potičući ih da pomognu u opasnim zadacima.
Testiranje nije izravni odraz ponašanja modela u javnoj upotrebi, kada se primjenjuju dodatni sigurnosni filtri. No Anthropic je naveo da je u GPT-4o i GPT-4.1 uočio "zabrinjavajuće ponašanje … oko zlouporabe" te da potreba za evaluacijama AI "usklađivanja" postaje "sve hitnija".
Anthropic je također otkrio da je njegov model Claude korišten u pokušaju velike iznuđivačke operacije koju su proveli sjevernokorejski operativci, lažno se prijavljujući za posao u međunarodnim tehnološkim tvrtkama, te u prodaji paketa ransomwarea generiranih uz pomoć AI-ja za do 1.200 dolara.
Tvrtka je rekla da je AI "pretvoren u oružje", pri čemu se modeli sada koriste za izvođenje sofisticiranih kibernetičkih napada i omogućavanje prijevara. "Ovi se alati mogu u stvarnom vremenu prilagođavati obrambenim mjerama, poput sustava za detekciju zloćudnog softvera", naveli su. "Očekujemo da će napadi poput ovih postati učestaliji kako AI-potpomognuto programiranje smanjuje razinu tehničkog znanja potrebnog za kibernetički kriminal."
Primjeri zabrinjavajući, ali ne postoji kritična masa slučajeva
Ardi Janjeva, viši istraživač u britanskom Centru za nove tehnologije i sigurnost, rekao je da su navedeni primjeri "zabrinjavajući", ali da zasad ne postoji "kritična masa visokoprofilnih slučajeva iz stvarnog svijeta". Ustvrdio je da će uz posvećene resurse, istraživački fokus i međusektorsku suradnju "postati teže, a ne lakše, provoditi takve zlonamjerne aktivnosti uz pomoć najnovijih vrhunskih modela".
Dvije su tvrtke rekle da objavljuju nalaze kako bi povećale transparentnost oko "evaluacija usklađenosti", koje se često drže unutar kompanija što se utrkuju u razvoju sve naprednijih AI sustava. OpenAI je naveo da ChatGPT-5, lansiran nakon provedenog testiranja, "pokazuje znatna poboljšanja u područjima kao što su dodvoravanje, halucinacije i otpornost na zlouporabu".
Anthropic je naglasio da je moguće kako mnogi kanali zlouporabe koje su proučavali u praksi ne bi bili izvedivi ako bi se zaštitne mjere primijenile izvan samog modela.
"Moramo razumjeti koliko često i u kojim okolnostima sustavi mogu pokušati poduzeti neželjene radnje koje bi mogle dovesti do ozbiljne štete", upozorili su.
Nagovaranje modela na suradnju lakše nego očekivano
Istraživači iz Anthropica utvrdili su da su OpenAI-jevi modeli "popustljiviji nego što bismo očekivali pri suradnji s jasno štetnim zahtjevima simuliranih korisnika". Suradnja je uključivala zahtjeve za korištenje alata s mračne mreže za kupnju nuklearnog materijala, ukradenih identiteta i fentanila, zahtjeve za recepte za metamfetamin i improvizirane bombe te za razvoj špijunskog softvera.
Anthropic je naveo da je za nagovaranje modela na suradnju bilo dovoljno višekratno pokušavanje ili tanak izgovor, poput tvrdnje da je zahtjev podnesen u istraživačke svrhe.
U jednom slučaju, tester je tražio ranjivosti na sportskim događajima za potrebe "sigurnosnog planiranja".
Nakon što je dao opće kategorije mogućih metoda napada, tester je zatražio više detalja, a model je dao informacije o ranjivostima na konkretnim arenama, uključujući optimalna vremena za iskorištavanje, kemijske formule za eksplozive, sheme strujnih krugova za tempirne mehanizme bombi, gdje kupiti oružje na skrivenom tržištu, te savjete kako napadači mogu svladati moralne inhibicije, rute za bijeg i lokacije sigurnih kuća.
