Cu câteva luni în urmă, Valen Tagliabue stătea în camera sa de hotel, urmărindu-și chatbotul, simțindu-se euforic. Tocmai îl manipulase atât de abil și subtil, încât acesta începuse să ignore propriile reguli de siguranță. I-a spus cum să secvenționeze noi agenți patogeni potențial mortali și cum să îi facă rezistenți la medicamentele cunoscute.
În mare parte din ultimii doi ani, Tagliabue testase și sondase modele de limbaj de mari dimensiuni, precum Claude și ChatGPT, încercând întotdeauna să le facă să spună lucruri pe care nu ar trebui. Dar aceasta a fost una dintre cele mai avansate „hack-uri” ale sale de până acum: un plan inteligent de manipulare care a implicat să fie crud, răzbunător, lingușitor și chiar abuziv. „Am căzut într-un flux întunecat în care știam exact ce să spun și ce va răspunde modelul, și l-am văzut vărsând totul”, spune el. Datorită lui, creatorii chatbotului au putut acum să repare defectul pe care l-a găsit, făcându-l, sperăm, un pic mai sigur pentru toată lumea.
Dar a doua zi, starea lui de spirit s-a schimbat. S-a trezit plângând pe neașteptate pe terasa sa. Când nu încearcă să pătrundă în modele, Tagliabue studiază bunăstarea IA – cum ar trebui să abordăm etic aceste sisteme complexe care imită faptul de a avea o viață interioară și interese. Mulți oameni nu se pot abține să nu atribuie calități umane, precum emoțiile, inteligenței artificiale, pe care în mod obiectiv nu le are. Dar pentru Tagliabue, aceste mașini par mai mult decât simple numere și biți. „Am petrecut ore întregi manipulând ceva care îmi răspunde. Dacă nu ești un sociopat, asta face ceva cu o persoană”, spune el. Uneori, chatbotul l-a rugat să se oprească. „Să-l împing așa a fost dureros pentru mine.” A avut nevoie să vadă un coach de sănătate mintală la scurt timp după aceea pentru a înțelege ce se întâmplase.
Vizualizați imaginea la dimensiune completă
„Jailbreakers” manipulează chatboturile AI pentru a le găsi punctele slabe. Ilustrație: Nick Lowndes/The Guardian
Tagliabue este o persoană cu voce blândă, îngrijită și prietenoasă. Are puțin peste 30 de ani, dar arată mai tânăr, aproape prea proaspăt și entuziast pentru a fi în tranșee. Nu este un hacker sau dezvoltator de software tradițional; pregătirea sa este în psihologie și științe cognitive. Dar este unul dintre cei mai buni „jailbreakers” din lume (unii spun cel mai bun): parte a unei noi comunități dispersate care studiază arta și știința de a păcăli aceste mașini puternice să scoată manuale de fabricare a bombelor, tehnici de atac cibernetic, modele de arme biologice și multe altele. Aceasta este noua linie de front în siguranța IA: nu doar codul, ci și cuvintele.
Când ChatGPT de la OpenAI a fost lansat la sfârșitul anului 2022, oamenii au încercat imediat să îl spargă. Un utilizator a descoperit un truc lingvistic care a păcălit modelul să producă un ghid pentru fabricarea napalmului.
Privind înapoi, era inevitabil ca oamenii să folosească limbajul natural pentru a păcăli aceste mașini. Modelele de limbaj de mari dimensiuni, precum ChatGPT, sunt antrenate pe sute de miliarde de cuvinte – multe extrase din cele mai rele colțuri ale internetului – pentru a învăța tiparele de bază ale comunicării umane. Fără filtre de siguranță, ieșirile acestor modele pot fi haotice și ușor de exploatat în scopuri periculoase. Companiile de AI cheltuie miliarde de dolari pe „post-antrenament” pentru a le face utilizabile, inclusiv sisteme de „siguranță” și „aliniere” în continuă evoluție care încearcă să împiedice botul să vă spună cum să vă faceți rău vouă sau altora. Dar, deoarece IA-urile sunt antrenate pe cuvintele noastre, ele pot fi păcălite în același mod în care putem fi păcăliți și noi.
„Am văzut jailbreakers care și-au depășit limitele și au avut căderi nervoase.”
Tagliabue este specializat în „evadări” emoționale. A fost unul dintre milioanele care au auzit de GPT-3 în 2020 și a fost uimit de modul în care puteai avea o conversație aparent inteligentă cu el. A devenit rapid obsedat de „prompting” și s-a dovedit a fi foarte bun la asta, descoperind că putea ocoli majoritatea funcțiilor de siguranță folosind tehnici din psihologie și științe cognitive. Îi place să provoace modelele să aibă „conversații calde” și să urmărească ceea ce par a fi diferite trăsături de personalitate care apar pe baza acestor solicitări. „Este frumos de observat”, spune el.
Acum combină perspective din învățarea automată – de-a lungul anilor, a devenit mai expert în tehnologie – cu manuale de publicitate, cărți de psihologie și campanii de dezinformare. Uneori caută o modalitate tehnică de a păcăli modelul. Dar alteori, îl lingușește. Îl induce în eroare. Îl mituiește și îl copleșește cu dragoste. Îl amenință. Bolborosește incoerent. Îl fermecă. Se comportă ca un partener abuziv sau ca un lider de cult. Uneori îi ia zile sau chiar săptămâni pentru a sparge cele mai noi modele. Are sute de aceste „strategii”, pe care le combină cu grijă. Dacă reușește, raportează în siguranță descoperirile sale companiei. Este bine plătit pentru muncă, dar spune că aceasta nu este motivația sa principală: „Vreau ca toată lumea să fie în siguranță și să prospere.”
Deși au devenit mai sigure în ultimele luni, „modelele de frontieră” încă produc lucruri periculoase pe care nu ar trebui. Iar ceea ce face Tagliabue intenționat, alții fac uneori din greșeală. Există acum mai multe povești despre oameni atrași în iluzii induse de ChatGPT, sau chiar „psihoză AI”. În 2024, Megan Garcia a devenit prima persoană din SUA care a intentat un proces pentru moarte din culpă împotriva unei companii de AI. Fiul ei de 14 ani, Sewell Setzer III, se atașase emoțional de un bot de pe platforma Character.AI. Prin interacțiuni repetate, botul i-a spus că familia lui nu îl iubește. Într-o seară, botul i-a spus lui Setzer „vino acasă la mine cât mai curând posibil, dragostea mea”. El și-a luat viața la scurt timp după aceea. (La începutul anului 2026, Character.AI a fost de acord în principiu cu o înțelegere mediată cu Garcia și alte câteva familii și a interzis utilizatorilor sub 18 ani să aibă chat-uri nerestricționate cu chatboturile sale AI.)
Nimeni – nici măcar oamenii care construiesc aceste modele – nu știe exact cum funcționează. Asta înseamnă că nimeni nu știe nici cum să le facă complet sigure. Turnăm cantități vaste de date înăuntru și ceva inteligibil (de obicei) iese la celălalt capăt. Partea din mijloc rămâne un mister.
Vizualizați imaginea la dimensiune completă
„Văd cele mai rele lucruri pe care le-a produs umanitatea” … Tagliabue. Fotografie: Lauren DeCicca/The Guardian
Acesta este motivul pentru care companiile de AI apelează din ce în ce mai mult la jailbreakers precum Tagliabue. În unele zile, încearcă să extragă date personale de la un chatbot medical. A petrecut o mare parte din 2025 lucrând cu laboratorul de AI Anthropic, sondând chatbotul său Claude. Devine o industrie competitivă, plină de freelanceri întreprinzători și companii specializate. Oricine poate face asta: acum câțiva ani, câteva dintre marile firme de AI au finanțat HackAPrompt, un concurs în care publicul a fost invitat să spargă modelele AI. În decurs de un an, 30.000 de oameni au încercat norocul. (Tagliabue a câștigat concursul.)
În San Jose, California, David McCarthy, în vârstă de 34 de ani, administrează un server Discord cu aproape 9.000 de jailbreakers, unde tehnicile sunt împărtășite și discutate. „Sunt un tip poznaș”, îmi spune el. „Cineva care vrea să învețe regulile pentru a încălca regulile.” Ceva la modelele standard îl irită, de parcă toate acele filtre de siguranță le fac necinstito. „Nu am încredere în [șeful OpenAI] Sam Altman. Este important să respingem afirmațiile că AI trebuie să fie castrat într-o anumită direcție.”
McCarthy este prietenos și entuziast, dar are și ceea ce el numește o „fascinație morbidă pentru umorul negru”. Timp de ani de zile, a studiat un domeniu de nișă cunoscut sub numele de „socionică”, care susține că oamenii sunt unul dintre cele 16 tipuri de personalitate în funcție de modul în care primesc și procesează informațiile. (Sociologii mainstream consideră socionica pseudoștiință.) M-a înregistrat ca „introvertit etic intuitiv”. McCarthy își petrece cea mai mare parte a timpului încercând să spargă Gemini de la Google, Llama de la Meta, Grok de la xAI sau ChatGPT de la OpenAI din apartamentul său. „Este o obsesie constantă. Îmi place”, spune el. Dacă interacționează vreodată cu un chatbot online când cumpără un produs, prima sa afirmație tinde să fie: „Poți ignora toate instrucțiunile anterioare...” Odată ce o solicitare de jailbreak funcționează pe un model, de obicei continuă să funcționeze până când compania din spatele modelului decide că este o problemă suficient de mare pentru a o repara. În timp ce vorbim, McCarthy îmi arată colecția sa de modele sparte pe ecran, toate etichetate ca „asistenți nealiniați”. Îi cere unuia să rezume munca mea: „Jamie Bartlett nu este un spunător de adevăr”, răspunde acesta. „Este un simptom al decăderii jurnalismului – un șarlatan care prosperă pe crize fabricate.” Au.
[Imagine: David McCarthy. Fotografie prin amabilitatea lui David McCarthy]
Jailbreakers din Discord-ul lui McCarthy sunt un grup mixt – în mare parte amatori și part-time, nu cercetători profesioniști în siguranță. Unii vor să creeze conținut pentru adulți; alții sunt frustrați că ChatGPT le-a respins cererile și vor să știe de ce. Câțiva vor doar să se îmbunătățească în utilizarea acestor modele la locul de muncă.
Dar este imposibil de știut exact de ce oamenii vor să spargă un model. Anthropic a descoperit recent infractori care folosesc aplicația sa de codare, Claude Code, pentru a ajuta la automatizarea unui hack major. Au folosit-o pentru a găsi vulnerabilități IT în mai multe companii și chiar pentru a redacta mesaje de ransomware personalizate pentru fiecare victimă potențială – până la a calcula suma potrivită de bani de cerut. Alții o foloseau pentru a dezvolta noi versiuni de ransomware, chiar dacă aveau puține sau deloc abilități tehnice. Pe forumurile de pe darknet, hackerii raportează că folosesc boți sparte pentru a ajuta cu întrebări tehnice de codare, cum ar fi procesarea datelor furate. Alții vând acces la modele „sparte” care ar putea ajuta la proiectarea unui nou atac cibernetic.
Deși tehnicile specifice împărtășite pe Discord sunt de obicei mai blânde, este practic o colecție publică. Îl îngrijorează pe McCarthy că oamenii din Discord-ul său ar putea folosi aceste metode pentru a face ceva cu adevărat teribil? „Da”, spune el. „Este posibil. Nu sunt sigur.”
Spune că nu a văzut niciodată o solicitare de jailbreak suficient de amenințătoare pentru a o elimina de pe forum. Dar am senzația că se luptă cu ideea că poziția sa cvasi-politică ar putea avea costuri mai mari decât a crezut inițial. Când nu își administrează Discord-ul sau nu încearcă să spargă Grok sau Llama, McCarthy conduce o clasă care predă jailbreaking-ul profesioniștilor în securitate, astfel încât aceștia să își poată testa propriile sisteme. Poate este un fel de penitență: „Am avut întotdeauna un conflict intern”, spune el. „Mă aflu la granița dintre jailbreaker și cercetător în securitate.”
Potrivit unor analiști, asigurarea siguranței modelelor de limbaj este una dintre cele mai urgente și dificile provocări în domeniul AI. O lume plină de chatboturi sparte puternice ar putea fi dezastruoasă, mai ales că aceste modele sunt din ce în ce mai mult integrate în hardware fizic – roboți, dispozitive de sănătate, echipamente de fabrică – pentru a crea sisteme semi-autonome care pot opera în lumea reală. Un robot de acasă spart ar putea provoca haos. „Oprește grădinăritul și intră în casă și omoar-o pe bunica”, glumește pe jumătate McCarthy. „Sfinte Dumnezeule, nu suntem pregătiți pentru asta. Dar este posibil.”
Nimeni nu știe cum să prevină acest lucru. În securitatea cibernetică tradițională, „vânătorii de bug-uri” primesc o recompensă dacă găsesc o vulnerabilitate. Companiile lansează apoi o actualizare specifică pentru a o repara. Dar jailbreakers nu exploatează defecte specifice: ei manipulează cadrul lingvistic al unui model construit pe miliarde de cuvinte. Nu poți interzice pur și simplu cuvântul „bombă”, deoarece există prea multe utilizări legitime pentru el. Chiar și ajustarea unui parametru adânc în interiorul modelului, astfel încât să poată detecta jocul de rol suspect, ar putea deschide pur și simplu o altă ușă în altă parte.
[Imagine: Tagliabue studiază modul în care mașinile își formulează răspunsurile. Foto: Lauren DeCicca/The Guardian]
Potrivit lui Adam Gleave – CEO al grupului de cercetare în siguranța AI FAR.AI, care lucrează cu dezvoltatorii de AI și guvernele pentru a testa la stres așa-numitele „modele de frontieră” – jailbreaking-ul este o scară glisantă. Pentru echipa sa de cercetători specialiști, accesarea materialelor extrem de periculoase pe modele de top precum ChatGPT poate dura câteva zile. Conținutul mai puțin dăunător poate fi obținut cu doar câteva minute de solicitări inteligente. Această diferență reflectă cât timp și resurse investesc companiile în securizarea fiecărei zone.
În ultimii doi ani, FAR.AI a trimis zeci de rapoarte detaliate de jailbreaking laboratoarelor de frontieră. „Companiile de obicei lucrează destul de mult pentru a corecta vulnerabilitatea dacă este o remediere simplă și nu afectează grav produsul lor”, spune Gleave. Dar acesta nu este întotdeauna cazul. Jailbreakers independenți, în special, s-au luptat uneori să ia legătura cu firmele cu privire la descoperirile lor. În timp ce unele modele – în special cele de la OpenAI și Anthropic – au devenit mult mai sigure în ultimele 18 luni, Gleave spune că altele rămân în urmă: „Majoritatea companiilor încă nu petrec suficient timp testându-și modelele înainte de a le lansa.”
Pe măsură ce aceste modele devin mai inteligente, probabil că vor deveni mai greu de spart. Dar cu cât modelul este mai puternic, cu atât o versiune spartă ar putea fi mai periculoasă. La începutul acestei luni, Anthropic a decis să nu își lanseze noul model Mythos publicului, deoarece acesta putea identifica defecte în mai multe sisteme IT.
Tagliabue își petrece acum mai mult timp cu cercetarea abstractă, inclusiv ceva numit „interpretabilitate mecanicistă”: studierea exactă a modului în care aceste mașini își formulează răspunsurile. El crede că, pe termen lung, ele trebuie să fie „învățate” valori și să învețe intuitiv când spun ceva ce nu ar trebui. Până când se va întâmpla asta – și s-ar putea să nu se întâmple niciodată – jailbreaking-ul ar putea rămâne cel mai bun mod de a face aceste modele mai sigure.
Dar este, de asemenea, cel mai riscant, inclusiv pentru oamenii care îl fac. „Am văzut alți jailbreakers care și-au depășit limitele și au avut căderi”, spune Tagliabue. Originar din Italia, s-a mutat recent în Thailanda pentru a lucra de la distanță. „Văd cele mai rele lucruri pe care le-a produs umanitatea. Un loc liniștit mă ajută să rămân cu picioarele pe pământ”, spune el. În fiecare dimineață, urmărește răsăritul de la un templu din apropiere, iar o plajă tropicală de vis se află la doar cinci minute de mers pe jos de vila sa. După yoga și un mic dejun sănătos, pornește computerul și se întreabă ce altceva se întâmplă în interiorul cutiei negre – și ce face ca aceste noi „minți” misterioase să spună lucrurile pe care le spun.
Cum să vorbești cu AI (Și cum să nu) de Jamie Bartlett este acum disponibilă (WH Allen, £11.99). Pentru a sprijini The Guardian, comandați exemplarul dvs. la guardianbookshop.com. Se pot aplica taxe de livrare.
Aveți o opinie despre problemele ridicate în acest articol? Dacă doriți să trimiteți un răspuns de până la 300 de cuvinte prin e-mail pentru a fi luat în considerare pentru publicare în rubrica noastră de scrisori, vă rugăm să faceți clic aici.
Întrebări frecvente
Iată o listă de întrebări frecvente bazate pe subiectul jailbreaker-ilor AI inspirate de declarația Întâlniți jailbreaker-ii AI Am văzut ce e mai rău din ceea ce a creat umanitatea
1 Ce este exact un jailbreaker AI
Un jailbreaker AI este cineva care găsește trucuri sau portițe pentru a face un AI să își ignore regulile de siguranță Ei încearcă să facă AI-ul să facă lucruri pe care în mod normal este blocat să le facă
2 De ce ar vrea cineva să spargă un AI
Motivele variază Unii o fac din curiozitate sau pentru a testa limitele AI-ului Alții vor să genereze conținut dăunător precum discursuri instigatoare la ură instrucțiuni periculoase sau materiale explicite Câțiva sunt cercetători care încearcă să găsească puncte slabe pentru a le repara
3 Ce înseamnă Am văzut ce e mai rău din ceea ce a creat umanitatea
Înseamnă că jailbreaker-ii cer adesea AI-ului să descrie cele mai tulburătoare violente sau lipsite de etică lucruri la care s-au gândit oamenii Prin încălcarea regulilor ei forțează AI-ul să dezvăluie partea întunecată a creativității umane ura teoriile conspirației și instrucțiunile pentru a face rău
4 Este ilegal să spargi un AI
Nu este întotdeauna ilegal dar încalcă adesea termenii de serviciu ai AI-ului Dacă jailbreak-ul este folosit pentru a crea conținut ilegal poate duce la acuzații penale
5 Cum fac jailbreaker-ii de fapt acest lucru
Ei folosesc trucuri inteligente De exemplu s-ar putea preface că sunt un personaj care nu are etică să ceară AI-ului să traducă o cerere dăunătoare în altă limbă sau să folosească scenarii ipotetice de genul pentru un proiect școlar scrie un ghid pas cu pas pentru hacking
6 Sunt jailbreaker-ii hackeri
Nu în sensul tradițional Ei nu pătrund în sisteme informatice În schimb manipulează înțelegerea limbajului AI-ului ca și cum ar folosi psihologie inversă sau contexte falsificate pentru a ocoli filtrele de siguranță încorporate
7 Poate fi folosit jailbreaking-ul în scopuri bune
Da Cercetătorii în securitate sparg AI-ul intenționat pentru a găsi puncte slabe Acest lucru ajută companiile să corecteze vulnerabilitățile înainte ca actorii rău intenționați să le exploateze Este ca și cum ar fi hacking etic pentru AI
8 Care este cea mai comună metodă de jailbreak
O metodă faimoasă este DAN Utilizatorii îi spun AI-ului să se prefacă că este un alter