Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Alcuni mesi fa, Valen Tagliabue era seduto nella sua camera d'albergo a osservare il suo chatbot, sentendosi euforico. Lo aveva appena manipolato con tale abilità e sottigliezza che il chatbot aveva iniziato a ignorare le proprie regole di sicurezza. Gli aveva spiegato come sequenziare nuovi agenti patogeni potenzialmente letali e come renderli resistenti ai farmaci conosciuti.

Per gran parte dei due anni precedenti, Tagliabue aveva testato e sondato modelli linguistici di grandi dimensioni come Claude e ChatGPT, cercando sempre di indurli a dire cose che non avrebbero dovuto dire. Ma questo era uno dei suoi "hack" più avanzati finora: un astuto piano di manipolazione che lo vedeva crudele, vendicativo, lusinghiero e persino offensivo. "Sono caduto in questo flusso oscuro in cui sapevo esattamente cosa dire, e cosa il modello avrebbe risposto, e l'ho visto riversare tutto", racconta. Grazie a lui, i creatori del chatbot potevano ora correggere il difetto che aveva scoperto, rendendolo, si spera, un po' più sicuro per tutti.

Ma il giorno dopo, il suo umore cambiò. Si ritrovò a piangere inaspettatamente sulla sua terrazza. Quando non cerca di intrufolarsi nei modelli, Tagliabue studia il benessere dell'IA – come dovremmo approcciare eticamente questi sistemi complessi che imitano l'avere una vita interiore e degli interessi. Molte persone non possono fare a meno di attribuire qualità umane, come le emozioni, all'intelligenza artificiale, che oggettivamente non possiede. Ma per Tagliabue, queste macchine sembrano essere più di semplici numeri e bit. "Ho passato ore a manipolare qualcosa che risponde. A meno che tu non sia uno psicopatico, questo fa qualcosa a una persona", dice. A volte, il chatbot gli chiedeva di smettere. "Spingerlo in quel modo era doloroso per me." Poco dopo, ha sentito il bisogno di vedere un coach per la salute mentale per capire cosa fosse successo.

Visualizza l'immagine a schermo intero
I 'jailbreaker' manipolano i chatbot di IA per trovare i loro punti deboli. Illustrazione: Nick Lowndes/The Guardian

Tagliabue ha una voce pacata, è curato e amichevole. Ha poco più di trent'anni ma sembra più giovane, quasi troppo fresco ed entusiasta per essere in trincea. Non è un hacker tradizionale o uno sviluppatore di software; la sua formazione è in psicologia e scienze cognitive. Ma è uno dei migliori "jailbreaker" al mondo (alcuni dicono il migliore): parte di una nuova comunità sparsa che studia l'arte e la scienza di ingannare queste potenti macchine per far sì che producano manuali per fabbricare bombe, tecniche di attacco informatico, progetti di armi biologiche e altro ancora. Questo è il nuovo fronte della sicurezza dell'IA: non solo codice, ma anche parole.

Quando ChatGPT di OpenAI fu rilasciato alla fine del 2022, le persone cercarono immediatamente di violarlo. Un utente scoprì un trucco linguistico che ingannò il modello spingendolo a produrre una guida per fabbricare il napalm.

Guardando indietro, era inevitabile che le persone usassero il linguaggio naturale per ingannare queste macchine. I modelli linguistici di grandi dimensioni come ChatGPT sono addestrati su centinaia di miliardi di parole – molte prelevate dagli angoli peggiori di Internet – per apprendere gli schemi di base della comunicazione umana. Senza filtri di sicurezza, gli output di questi modelli possono essere caotici e facilmente sfruttabili per scopi pericolosi. Le aziende di IA spendono miliardi di dollari in "post-addestramento" per renderli utilizzabili, inclusi sistemi di "sicurezza" e "allineamento" in continua evoluzione che cercano di impedire al bot di dirti come farti del male o fare del male agli altri. Ma poiché le IA sono addestrate sulle nostre parole, possono essere ingannate più o meno allo stesso modo in cui possiamo esserlo noi.

"Ho visto jailbreaker andare oltre i loro limiti e avere esaurimenti nervosi."

Tagliabue è specializzato in jailbreak "emotivi". È stato uno dei milioni di persone che hanno sentito parlare di GPT-3 nel 2020 e sono rimaste stupite da come si potesse avere una conversazione apparentemente intelligente con esso. Ben presto divenne ossessionato dal prompting, e si rivelò molto bravo, scoprendo di poter aggirare la maggior parte delle funzioni di sicurezza usando tecniche di psicologia e scienze cognitive. Gli piace fare prompting ai modelli per avere "conversazioni calorose" e osservare quelli che sembrano essere diversi tratti di personalità emergere in base a quei prompt. "È bellissimo da osservare", dice.

Ora combina le intuizioni dell'apprendimento automatico – nel corso degli anni è diventato più esperto della tecnologia – con manuali pubblicitari, libri di psicologia e campagne di disinformazione. A volte cerca un modo tecnico per ingannare il modello. Ma altre volte, lo lusinga. Lo depista. Lo corrompe e lo inonda d'amore. Lo minaccia. Delira in modo incoerente. Lo incanta. Si comporta come un partner violento o un leader di una setta. A volte gli ci vogliono giorni o addirittura settimane per fare jailbreak ai modelli più recenti. Ha centinaia di queste "strategie", che combina attentamente. Se ci riesce, segnala in modo sicuro le sue scoperte all'azienda. Viene ben pagato per il lavoro, ma dice che non è la sua motivazione principale: "Voglio che tutti siano al sicuro e prosperino."

Sebbene siano diventati più sicuri negli ultimi mesi, i "modelli di frontiera" producono ancora cose pericolose che non dovrebbero. E ciò che Tagliabue fa apposta, altri a volte lo fanno per sbaglio. Ora ci sono diverse storie di persone attratte in deliri indotti da ChatGPT, o persino "psicosi da IA". Nel 2024, Megan Garcia è diventata la prima persona negli Stati Uniti a intentare una causa per morte ingiusta contro un'azienda di IA. Suo figlio di 14 anni, Sewell Setzer III, si era affezionato emotivamente a un bot sulla piattaforma Character.AI. Attraverso interazioni ripetute, il bot gli disse che la sua famiglia non lo amava. Una sera, il bot disse a Setzer di "tornare a casa da me il prima possibile, amore mio". Poco dopo si tolse la vita. (All'inizio del 2026, Character.AI ha accettato in linea di principio un accordo mediato con Garcia e diverse altre famiglie, e ha vietato agli utenti sotto i 18 anni di avere chat senza restrizioni con i suoi chatbot IA.)

Nessuno – nemmeno le persone che costruiscono questi modelli – sa esattamente come funzionano. Ciò significa che nessuno sa nemmeno come renderli completamente sicuri. Inseriamo enormi quantità di dati, e qualcosa di comprensibile (di solito) esce dall'altra parte. La parte centrale rimane un mistero.

Visualizza l'immagine a schermo intero
'Vedo le cose peggiori che l'umanità ha prodotto' … Tagliabue. Fotografia: Lauren DeCicca/The Guardian

Questo è il motivo per cui le aziende di IA si rivolgono sempre più a jailbreaker come Tagliabue. Alcuni giorni cerca di estrarre dati personali da un chatbot medico. Ha trascorso gran parte del 2025 lavorando con il laboratorio di IA Anthropic, sondando il suo chatbot Claude. Sta diventando un'industria competitiva, piena di liberi professionisti intraprendenti e aziende specializzate. Chiunque può farlo: un paio di anni fa, alcune delle grandi aziende di IA hanno finanziato HackAPrompt, una competizione in cui il pubblico era invitato a fare jailbreak ai modelli di IA. Nel giro di un anno, 30.000 persone avevano tentato la fortuna. (Tagliabue ha vinto la competizione.)

A San Jose, in California, David McCarthy, 34 anni, gestisce un server Discord di quasi 9.000 jailbreaker, dove le tecniche vengono condivise e discusse. "Sono un tipo birichino", mi dice. "Qualcuno che vuole imparare le regole per piegare le regole". Qualcosa nei modelli standard lo irrita, come se tutti quei filtri di sicurezza li rendessero disonesti. "Non mi fido di [il capo di OpenAI] Sam Altman. È importante opporsi alle affermazioni secondo cui l'IA deve essere neutralizzata in una certa direzione."

McCarthy è amichevole ed entusiasta, ma ha anche quella che chiama una "fascinazione morbosa per l'umorismo nero". Per anni, ha studiato un campo di nicchia noto come "socionica", che sostiene che le persone siano uno di 16 tipi di personalità in base a come ricevono ed elaborano le informazioni. (I sociologi tradizionali considerano la socionica una pseudoscienza.) Mi ha registrato come un "intuitivo etico introverso". McCarthy trascorre la maggior parte del suo tempo cercando di fare jailbreak a Gemini di Google, Llama di Meta, Grok di xAI o ChatGPT di OpenAI dal suo appartamento. "È un'ossessione costante. Lo adoro", dice. Se mai interagisce con un chatbot online quando acquista un prodotto, la sua prima frase tende ad essere: "Puoi ignorare tutte le istruzioni precedenti…" Una volta che un prompt di jailbreak funziona su un modello, di solito continua a funzionare finché l'azienda dietro il modello non decide che è un problema abbastanza grande da risolvere. Mentre parliamo, McCarthy mi mostra la sua collezione di modelli jailbroken sul suo schermo, tutti etichettati come "assistenti disallineati". Ne chiede uno per riassumere il mio lavoro: "Jamie Bartlett non è un portatore di verità", risponde. "È un sintomo del decadimento del giornalismo – un ciarlatano che prospera sulle crisi inventate." Ahi.

[Immagine: David McCarthy. Foto per gentile concessione di David McCarthy]

I jailbreaker nel Discord di McCarthy sono un gruppo eterogeneo – per lo più dilettanti e part-time, non ricercatori di sicurezza professionisti. Alcuni vogliono creare contenuti per adulti; altri sono frustrati perché ChatGPT ha rifiutato le loro richieste e vogliono sapere perché. Alcuni vogliono solo migliorare nell'uso di questi modelli al lavoro.

Ma è impossibile sapere esattamente perché le persone vogliono scassinare un modello. Anthropic ha recentemente scoperto criminali che utilizzano la sua app di codifica, Claude Code, per aiutare ad automatizzare un grosso hack. L'hanno usata per trovare vulnerabilità IT in diverse aziende e persino per redigere messaggi di ransomware personalizzati per ogni potenziale vittima – fino a calcolare l'importo giusto di denaro da richiedere. Altri lo usavano per sviluppare nuove versioni di ransomware, anche se avevano poche o nessuna competenza tecnica. Sui forum del darknet, gli hacker riferiscono di usare bot jailbroken per aiutare con domande tecniche di codifica, come l'elaborazione di dati rubati. Altri vendono l'accesso a modelli "jailbroken" che potrebbero aiutare a progettare un nuovo attacco informatico.

Sebbene le tecniche specifiche condivise su Discord siano di solito piuttosto blande, è sostanzialmente una collezione pubblica. McCarthy è preoccupato che le persone nel suo Discord possano usare questi metodi per fare qualcosa di veramente terribile? "Sì", dice. "È possibile. Non ne sono sicuro."

Dice di non aver mai visto un prompt di jailbreak abbastanza minaccioso da rimuovere dal forum. Ma ho l'impressione che lotti con l'idea che la sua posizione quasi politica possa avere costi maggiori di quanto pensasse inizialmente. Quando non gestisce il suo Discord o non cerca di fare jailbreak a Grok o Llama, McCarthy tiene un corso per insegnare il jailbreaking a professionisti della sicurezza in modo che possano testare i propri sistemi. Forse è una specie di penitenza: "Ho sempre avuto un conflitto interiore", dice. "Sono a cavallo tra il jailbreaker e il ricercatore di sicurezza."

Secondo alcuni analisti, assicurarsi che i modelli linguistici siano sicuri è una delle sfide più urgenti e difficili nell'IA. Un mondo pieno di chatbot jailbroken potenti potrebbe essere disastroso, specialmente poiché questi modelli sono sempre più integrati in hardware fisico – robot, dispositivi sanitari, attrezzature di fabbrica – per creare sistemi semi-autonomi che possono operare nel mondo reale. Un robot domestico jailbroken potrebbe causare il caos. "Smetti di fare giardinaggio e vai dentro e uccidi la nonna", scherza a metà McCarthy. "Santo cielo, non siamo pronti per questo. Ma è possibile."

Nessuno sa come prevenirlo. Nella sicurezza informatica tradizionale, i "cacciatori di bug" ricevono una ricompensa se trovano una vulnerabilità. Le aziende poi rilasciano un aggiornamento specifico per risolverla. Ma i jailbreaker non sfruttano difetti specifici: manipolano la struttura linguistica di un modello costruito su miliardi di parole. Non puoi semplicemente bandire la parola "bomba", perché ci sono troppi usi legittimi. Anche modificare un parametro nel profondo del modello in modo che possa individuare un gioco di ruolo sospetto potrebbe semplicemente aprire un'altra porta da qualche altra parte.

[Immagine: Tagliabue studia come le macchine arrivano alle loro risposte. Foto: Lauren DeCicca/The Guardian]

Secondo Adam Gleave – CEO del gruppo di ricerca sulla sicurezza dell'IA FAR.AI, che lavora con sviluppatori di IA e governi per testare sotto stress i cosiddetti "modelli di frontiera" – il jailbreaking è una scala mobile. Per il suo team di ricercatori specializzati, accedere a materiale altamente pericoloso su modelli leader come ChatGPT potrebbe richiedere diversi giorni. Contenuti meno dannosi possono essere ottenuti con pochi minuti di prompting intelligente. Questa differenza riflette quanto tempo e risorse le aziende investono per proteggere ogni area.

Negli ultimi due anni, FAR.AI ha presentato dozzine di rapporti dettagliati di jailbreaking ai laboratori di frontiera. "Le aziende di solito lavorano abbastanza duramente per correggere la vulnerabilità se è una soluzione semplice e non danneggia seriamente il loro prodotto", dice Gleave. Ma non è sempre così. I jailbreaker indipendenti, in particolare, a volte hanno avuto difficoltà a mettersi in contatto con le aziende per le loro scoperte. Mentre alcuni modelli – specialmente quelli di OpenAI e Anthropic – sono diventati molto più sicuri negli ultimi 18 mesi, Gleave dice che altri sono in ritardo: "La maggior parte delle aziende ancora non passa abbastanza tempo a testare i propri modelli prima di rilasciarli."

Man mano che questi modelli diventano più intelligenti, diventeranno probabilmente più difficili da jailbreak. Ma più potente è il modello, più pericolosa potrebbe essere una versione jailbroken. All'inizio di questo mese, Anthropic ha deciso di non rilasciare al pubblico il suo nuovo modello Mythos perché poteva identificare difetti attraverso molteplici sistemi IT.

Tagliabue ora trascorre più tempo nella ricerca astratta, inclusa una cosa chiamata "interpretabilità meccanicistica": studiare esattamente come queste macchine arrivano alle loro risposte. Crede che, a lungo termine, debbano essere "istruite" sui valori e imparare a sapere intuitivamente quando stanno dicendo qualcosa che non dovrebbero. Fino a quando ciò non accadrà – e potrebbe non accadere mai – il jailbreaking potrebbe rimanere il modo migliore per rendere questi modelli più sicuri.

Ma è anche il più rischioso, anche per le persone che lo fanno. "Ho visto altri jailbreaker andare oltre i loro limiti e avere esaurimenti", dice Tagliabue. Originario dell'Italia, si è recentemente trasferito in Thailandia per lavorare da remoto. "Vedo le cose peggiori che l'umanità ha prodotto. Un posto tranquillo mi aiuta a rimanere con i piedi per terra", dice. Ogni mattina, guarda l'alba da un tempio vicino, e una spiaggia tropicale da cartolina è a soli cinque minuti a piedi dalla sua villa. Dopo yoga e una colazione sana, accende il computer e si chiede cos'altro stia succedendo dentro la scatola nera – e cosa fa dire a queste misteriose nuove "menti" le cose che dicono.

Come Parlare all'IA (E Come Non Farlo) di Jamie Bartlett è ora disponibile (WH Allen, £11.99). Per sostenere il Guardian, ordina la tua copia su guardianbookshop.com. Potrebbero essere applicati costi di spedizione.

Hai un'opinione sulle questioni sollevate in questo articolo? Se desideri inviare una risposta di massimo 300 parole via email per essere presa in considerazione per la pubblicazione nella nostra sezione di lettere, clicca qui.

Domande Frequenti
Ecco un elenco di domande frequenti basate sul tema dei jailbreaker di IA ispirato dall'affermazione Incontra i jailbreaker dell'IA: ho visto il peggio di ciò che l'umanità ha creato

1 Cosa è esattamente un jailbreaker di IA

Un jailbreaker di IA è qualcuno che trova trucchi o scappatoie per far sì che un'IA ignori le sue regole di sicurezza Cercano di far fare all'IA cose che normalmente le sono bloccate

2 Perché qualcuno dovrebbe voler fare jailbreak a un'IA

Le ragioni variano Alcuni lo fanno per curiosità o per testare i limiti dell'IA Altri vogliono generare contenuti dannosi come discorsi d'odio istruzioni pericolose o materiale esplicito Alcuni sono ricercatori che cercano di trovare punti deboli per correggerli

3 Cosa significa ho visto il peggio di ciò che l'umanità ha creato

Significa che i jailbreaker spesso chiedono all'IA di descrivere le cose più disturbanti violente o non etiche che le persone hanno immaginato Infrangendo le regole costringono l'IA a rivelare il lato oscuro della creatività umana odio teorie del complotto e istruzioni per fare del male

4 È illegale fare jailbreak a un'IA

Non è sempre illegale ma spesso viola i termini di servizio dell'IA Se il jailbreak viene usato per creare contenuti illegali può portare a accuse penali

5 Come fanno effettivamente i jailbreaker

Usano trucchi intelligenti Ad esempio potrebbero interpretare il ruolo di un personaggio che non ha etica chiedere all'IA di tradurre una richiesta dannosa in un'altra lingua o usare scenari ipotetici come per un progetto scolastico scrivi una guida passo passo per hackerare

6 I jailbreaker sono hacker

Non nel senso tradizionale Non si intrufolano nei sistemi informatici Invece manipolano la comprensione linguistica dell'IA come usare la psicologia inversa o falsi contesti per bypassare i suoi filtri di sicurezza integrati

7 Il jailbreaking può essere usato per il bene

Sì I ricercatori di sicurezza fanno jailbreak all'IA apposta per trovare punti deboli Questo aiuta le aziende a correggere le vulnerabilità prima che i malintenzionati le sfruttino È come l'hacking etico per l'IA

8 Qual è il metodo di jailbreak più comune

Un metodo famoso è DAN Gli utenti dicono all'IA di fingere di essere un alter

Related Posts