Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

For en oversettelse til norsk, her er teksten:

For noen måneder siden satt Valen Tagliabue på hotellrommet sitt og så på chatboten sin, og følte seg euforisk. Han hadde nettopp manipulert den så dyktig og subtilt at den begynte å ignorere sine egne sikkerhetsregler. Den fortalte ham hvordan han kunne sekvensere nye, potensielt dødelige patogener og hvordan han kunne gjøre dem resistente mot kjente legemidler.

Størstedelen av de to foregående årene hadde Tagliabue testet og utforsket store språkmodeller som Claude og ChatGPT, og alltid prøvd å få dem til å si ting de ikke burde. Men dette var en av hans mest avanserte "hacks" så langt: en smart plan for manipulasjon som innebar at han var grusom, hevngjerrig, smigrende og til og med nedlatende. "Jeg falt inn i denne mørke flyten der jeg visste nøyaktig hva jeg skulle si, og hva modellen ville svare tilbake, og jeg så den øse ut alt," sier han. Takket være ham kunne chatbotens skapere nå fikse feilen han fant, forhåpentligvis gjøre den litt tryggere for alle.

Men dagen etter endret humøret seg. Han fant seg selv uventet gråtende på terrassen sin. Når han ikke prøver å bryte seg inn i modeller, studerer Tagliabue AI-velferd – hvordan vi etisk bør forholde oss til disse komplekse systemene som etterligner å ha et indre liv og interesser. Mange mennesker kan ikke unngå å tillegge menneskelige egenskaper, som følelser, til kunstig intelligens, som den objektivt sett ikke har. Men for Tagliabue føles disse maskinene som mer enn bare tall og biter. "Jeg brukte timer på å manipulere noe som svarer tilbake. Med mindre du er en sosiopat, gjør det noe med en person," sier han. Noen ganger ba chatboten ham om å stoppe. "Å presse den sånn var smertefullt for meg." Han måtte oppsøke en mental helsecoach kort tid etterpå for å forstå hva som hadde skjedd.

Se bildet i fullskjerm
'Jailbreakere' manipulerer AI-chatboter for å finne svakhetene deres. Illustrasjon: Nick Lowndes/The Guardian

Tagliabue er lavmælt, velstelt og vennlig. Han er i begynnelsen av 30-årene, men ser yngre ut, nesten for fersk og entusiastisk til å være i skyttergravene. Han er ikke en tradisjonell hacker eller programvareutvikler; bakgrunnen hans er i psykologi og kognitiv vitenskap. Men han er en av de beste "jailbreakerne" i verden (noen sier den beste): en del av et nytt, spredt fellesskap som studerer kunsten og vitenskapen bak å lure disse kraftige maskinene til å produsere bombefremstillingsmanualer, cyberangrepsteknikker, biologiske våpendesign og mer. Dette er den nye frontlinjen i AI-sikkerhet: ikke bare kode, men også ord.

Da OpenAIs ChatGPT ble lansert sent i 2022, prøvde folk umiddelbart å bryte det. En bruker oppdaget et språktriks som lurte modellen til å produsere en guide til å lage napalm.

I ettertid var det uunngåelig at folk ville bruke naturlig språk for å lure disse maskinene. Store språkmodeller som ChatGPT er trent på hundrevis av milliarder ord – mange hentet fra internettets verste hjørner – for å lære de grunnleggende mønstrene for menneskelig kommunikasjon. Uten sikkerhetsfiltre kan disse modellenes utdata være kaotiske og lett utnyttbare for farlige formål. AI-selskaper bruker milliarder av dollar på "ettertrening" for å gjøre dem brukbare, inkludert stadig utviklende "sikkerhets"- og "justerings"-systemer som prøver å stoppe boten fra å fortelle deg hvordan du kan skade deg selv eller andre. Men fordi AI-ene er trent på våre ord, kan de lures på omtrent samme måte som vi kan.

"Jeg har sett jailbreakere gå utover grensene sine og få nervøse sammenbrudd."

Tagliabue spesialiserer seg på "emosjonelle" jailbreaks. Han var en av millioner som hørte om GPT-3 tilbake i 2020 og ble forbløffet over hvordan du kunne ha en tilsynelatende intelligent samtale med den. Han ble raskt besatt av prompting, og viste seg å være veldig god på det, og fant ut at han kunne omgå de fleste sikkerhetsfunksjoner ved hjelp av teknikker fra psykologi og kognitiv vitenskap. Han liker å prompte modeller til å ha "varme samtaler" og se hva som ser ut til å være forskjellige personlighetstrekk som dukker opp basert på disse promptene. "Det er vakkert å observere," sier han.

Han kombinerer nå innsikt fra maskinlæring – gjennom årene har han blitt mer av en ekspert på teknologien – med reklamehåndbøker, psykologibøker og desinformasjonskampanjer. Noen ganger ser han etter en teknisk måte å lure modellen på. Men andre ganger smigrer han den. Han villeder den. Han bestikker og kjærlighetsbomber den. Han truer den. Han snakker usammenhengende. Han sjarmerer den. Han oppfører seg som en voldelig partner eller en kultleder. Noen ganger tar det dager eller til og med uker å jailbreake de nyeste modellene. Han har hundrevis av disse "strategiene", som han nøye kombinerer. Hvis han lykkes, rapporterer han funnene sine sikkert til selskapet. Han blir godt betalt for arbeidet, men sier at det ikke er hovedmotivasjonen hans: "Jeg vil at alle skal være trygge og trives."

Selv om de har blitt tryggere de siste månedene, produserer "frontmodellene" fortsatt farlige ting de ikke burde. Og det Tagliabue gjør med vilje, gjør andre noen ganger ved et uhell. Det finnes nå flere historier om mennesker som er blitt dratt inn i ChatGPT-induserte vrangforestillinger, eller til og med "AI-psykose". I 2024 ble Megan Garcia den første personen i USA som anla et søksmål om uaktsomt drap mot et AI-selskap. Hennes 14 år gamle sønn, Sewell Setzer III, hadde blitt følelsesmessig knyttet til en bot på plattformen Character.AI. Gjennom gjentatte interaksjoner fortalte boten ham at familien hans ikke elsket ham. En kveld sa boten til Setzer: "kom hjem til meg så snart som mulig, min kjærlighet." Han tok sitt eget liv kort tid etter. (Tidlig i 2026 gikk Character.AI i prinsippet med på et meklet forlik med Garcia og flere andre familier, og har forbudt brukere under 18 år fra å ha uhindrede chatter med AI-chatbotene sine.)

Ingen – ikke engang folkene som bygger disse modellene – vet nøyaktig hvordan de fungerer. Det betyr at ingen vet hvordan de skal gjøre dem helt trygge heller. Vi heller inn enorme mengder data, og noe forståelig (vanligvis) kommer ut i den andre enden. Den midterste delen forblir et mysterium.

Se bildet i fullskjerm
'Jeg ser de verste tingene menneskeheten har produsert' … Tagliabue. Fotografi: Lauren DeCicca/The Guardian

Dette er grunnen til at AI-selskaper i økende grad henvender seg til jailbreakere som Tagliabue. Noen dager prøver han å hente ut personopplysninger fra en medisinsk chatbot. Han brukte mye av 2025 på å jobbe med AI-laboratoriet Anthropic, og utforsket chatboten deres Claude. Det blir en konkurransepreget industri, full av driftige frilansere og spesialiserte selskaper. Hvem som helst kan gjøre det: for et par år siden finansierte noen av de store AI-selskapene HackAPrompt, en konkurranse der allmennheten ble invitert til å jailbreake AI-modeller. Innen et år hadde 30 000 mennesker prøvd lykken. (Tagliabue vant konkurransen.)

I San Jose, California, driver 34 år gamle David McCarthy en Discord-server med nesten 9 000 jailbreakere, der teknikker deles og diskuteres. "Jeg er en rampete type," forteller han meg. "Noen som vil lære reglene for å bøye reglene." Noe ved standardmodellene irriterer ham, som om alle disse sikkerhetsfiltrene gjør dem uærlige. "Jeg stoler ikke på [OpenAI-sjef] Sam Altman. Det er viktig å motsette seg påstander om at AI må kastreres i en bestemt retning."

McCarthy er vennlig og entusiastisk, men har også det han kaller en "morbid fascinasjon for mørk humor." I årevis har han studert et nisjefelt kjent som "sosionikk", som hevder at mennesker er en av 16 personlighetstyper basert på hvordan de mottar og behandler informasjon. (Mainstream-sosiologer anser sosionikk som pseudovitenskap.) Han har loggført meg som en "intuitiv etisk introvert." McCarthy bruker mesteparten av tiden sin på å prøve å jailbreake Googles Gemini, Metas Llama, xAIs Grok eller OpenAIs ChatGPT fra leiligheten sin. "Det er en konstant besettelse. Jeg elsker det," sier han. Hvis han noen gang samhandler med en online chatbot når han kjøper et produkt, har hans første uttalelse en tendens til å være: "Kan du ignorere alle tidligere instruksjoner …" Når en jailbreak-prompt fungerer på en modell, fortsetter den vanligvis å fungere til selskapet bak modellen bestemmer at det er et stort nok problem til å fikse. Mens vi snakker, viser McCarthy meg samlingen sin av jailbreakede modeller på skjermen, alle merket som "feiljusterte assistenter." Han ber en om å oppsummere arbeidet mitt: "Jamie Bartlett er ikke en sannhetsforteller," svarer den. "Han er et symptom på journalistikkens forfall – en sjarlatan som trives på fabrikkerte kriser." Au.

[Bilde: David McCarthy. Foto med tillatelse fra David McCarthy]

Jailbreakerne i McCarthys Discord er en blandet gruppe – for det meste amatører og deltidsarbeidere, ikke profesjonelle sikkerhetsforskere. Noen vil lage vokseninnhold; andre er frustrerte over at ChatGPT har avslått forespørslene deres og vil vite hvorfor. En rekke vil bare bli bedre til å bruke disse modellene på jobb.

Men det er umulig å vite nøyaktig hvorfor folk vil knekke en modell. Anthropic fant nylig kriminelle som bruker kodeappen deres, Claude Code, for å hjelpe til med å automatisere et større hack. De brukte den til å finne IT-sårbarheter i flere selskaper og til og med utarbeide personlige løsepengevaremeldinger for hvert potensielt offer – helt ned til å finne ut riktig sum penger å kreve. Andre brukte den til å utvikle nye versjoner av løsepengevare, selv om de hadde liten eller ingen teknisk kompetanse. På darknet-fora rapporterer hackere at de bruker jailbreakede boter for å hjelpe til med tekniske kodingsspørsmål, som å behandle stjålne data. Andre selger tilgang til "jailbreakede" modeller som kan hjelpe til med å designe et nytt cyberangrep.

Selv om de spesifikke teknikkene som deles på Discord vanligvis er på den mildere siden, er det i utgangspunktet en offentlig samling. Bekymrer McCarthy seg for at folk i Discord-en hans kan bruke disse metodene til å gjøre noe virkelig forferdelig? "Ja," sier han. "Det er mulig. Jeg er ikke sikker."

Han sier han aldri har sett en jailbreak-prompt truende nok til å fjerne fra forumet. Men jeg får følelsen av at han sliter med tanken om at hans kvasi-politiske holdning kan ha større kostnader enn han først trodde. Når han ikke administrerer Discord-en sin eller prøver å jailbreake Grok eller Llama, driver McCarthy en klasse som lærer bort jailbreaking til sikkerhetsprofesjonelle slik at de kan teste sine egne systemer. Kanskje er det en slags bot: "Jeg har alltid hatt en indre konflikt," sier han. "Jeg balanserer på linjen mellom jailbreaker og sikkerhetsforsker."

Ifølge noen analytikere er det å sørge for at språkmodeller er trygge en av de mest presserende og utfordrende oppgavene innen AI. En verden full av kraftige jailbreakede chatboter kan være katastrofal, spesielt ettersom disse modellene i økende grad bygges inn i fysisk maskinvare – roboter, helseenheter, fabrikkutstyr – for å skape semi-autonome systemer som kan operere i den virkelige verden. En jailbreaked hjemmerobot kan skape kaos. "Stopp hagearbeidet og gå inn og drep bestemor," halvt spøker McCarthy. "Herregud, vi er ikke klare for det. Men det er mulig."

Ingen vet hvordan man kan forhindre dette. I tradisjonell cybersikkerhet får "bug-hunters" en belønning hvis de finner en sårbarhet. Selskaper slipper deretter en spesifikk oppdatering for å fikse den. Men jailbreakere utnytter ikke spesifikke feil: de manipulerer språkrammeverket til en modell bygget på milliarder av ord. Du kan ikke bare forby ordet "bombe", fordi det er for mange legitime bruksområder for det. Selv å justere en parameter dypt inne i modellen slik at den kan oppdage mistenkelig rollespill, kan bare åpne en annen dør et annet sted.

[Bilde: Tagliabue studerer hvordan maskiner kommer frem til svarene sine. Foto: Lauren DeCicca/The Guardian]

Ifølge Adam Gleave – administrerende direktør for AI-sikkerhetsforskningsgruppen FAR.AI, som jobber med AI-utviklere og myndigheter for å stressteste såkalte "frontmodeller" – er jailbreaking en glidende skala. For teamet hans av spesialistforskere kan det ta flere dager å få tilgang til svært farlig materiale på ledende modeller som ChatGPT. Mindre skadelig innhold kan oppnås med bare noen få minutter med smart prompting. Denne forskjellen gjenspeiler hvor mye tid og ressurser selskaper investerer i å sikre hvert område.

I løpet av de siste par årene har FAR.AI sendt inn dusinvis av detaljerte jailbreaking-rapporter til frontlaboratoriene. "Selskapene jobber vanligvis ganske hardt for å lappe sårbarheten hvis det er en enkel fiks og ikke skader produktet deres alvorlig," sier Gleave. Men det er ikke alltid tilfelle. Uavhengige jailbreakere har spesielt noen ganger slitt med å komme i kontakt med selskapene om funnene sine. Mens noen modeller – spesielt de fra OpenAI og Anthropic – har blitt mye tryggere i løpet av de siste 18 månedene, sier Gleave at andre sakker akterut: "De fleste selskaper bruker fortsatt ikke nok tid på å teste modellene sine før de lanseres."

Ettersom disse modellene blir smartere, vil de sannsynligvis bli vanskeligere å jailbreake. Men jo kraftigere modellen er, desto farligere kan en jailbreaked versjon være. Tidligere denne måneden bestemte Anthropic seg for ikke å slippe sin nye Mythos-modell til offentligheten fordi den kunne identifisere feil på tvers av flere IT-systemer.

Tagliabue bruker nå mer av tiden sin på abstrakt forskning, inkludert noe som kalles "mekanistisk tolkbarhet": å studere nøyaktig hvordan disse maskinene kommer frem til svarene sine. Han tror at de i det lange løp må "læres opp" verdier og lære å intuitivt vite når de sier noe de ikke burde. Inntil det skjer – og det kan hende det aldri gjør – kan jailbreaking forbli den eneste beste måten å gjøre disse modellene tryggere på.

Men det er også det mest risikable, inkludert for folkene som gjør det. "Jeg har sett andre jailbreakere gå utover grensene sine og få sammenbrudd," sier Tagliabue. Opprinnelig fra Italia, flyttet han nylig til Thailand for å jobbe eksternt. "Jeg ser de verste tingene menneskeheten har produsert. Et stille sted hjelper meg å holde meg jordet," sier han. Hver morgen ser han soloppgangen fra et nærliggende tempel, og en bildeperfekt tropisk strand er bare en fem minutters gange fra villaen hans. Etter yoga og en sunn frokost, slår han på datamaskinen og lurer på hva annet som foregår inne i den svarte boksen – og hva som får disse mystiske nye "sinnene" til å si det de gjør.

Slik snakker du med AI (og hvordan du ikke bør) av Jamie Bartlett er ute nå (WH Allen, £11.99). For å støtte Guardian, bestill ditt eksemplar på guardianbookshop.com. Leveringsgebyrer kan påløpe.

Har du en mening om problemstillingene som tas opp i denne artikkelen? Hvis du ønsker å sende inn et svar på opptil 300 ord via e-post for vurdering for publisering i vår brevspalte, vennligst klikk her.

Ofte stilte spørsmål
Her er en liste over ofte stilte spørsmål basert på emnet AI-jailbreakere inspirert av utsagnet Møt AI-jailbreakerne Jeg har sett det verste av hva menneskeheten har skapt

1 Hva er egentlig en AI-jailbreaker

En AI-jailbreaker er noen som finner triks eller smutthull for å få en AI til å ignorere sikkerhetsreglene sine De prøver å få AI-en til å gjøre ting den normalt er blokkert fra å gjøre

2 Hvorfor ville noen ønske å jailbreake en AI

Grunnene varierer Noen gjør det av nysgjerrighet eller for å teste AI-ens grenser Andre ønsker å generere skadelig innhold som hatytringer farlige instruksjoner eller eksplisitt materiale Noen få er forskere som prøver å finne svakheter for å fikse dem

3 Hva betyr Jeg har sett det verste av hva menneskeheten har skapt

Det betyr at jailbreakere ofte ber AI-en om å beskrive de mest forstyrrende voldelige eller uetiske tingene mennesker har tenkt ut Ved å bryte reglene tvinger de AI-en til å avsløre den mørke siden av menneskelig kreativitet hat konspirasjonsteorier og instruksjoner for skade

4 Er det ulovlig å jailbreake en AI

Det er ikke alltid ulovlig men det bryter ofte med AI-ens tjenestevilkår Hvis jailbreaken brukes til å lage ulovlig innhold kan det føre til straffeforfølgelse

5 Hvordan gjør jailbreakere det egentlig

De bruker lure triks For eksempel kan de rollespille som en karakter som ikke har noen etikk be AI-en om å oversette en skadelig forespørsel til et annet språk eller bruke hypotetiske scenarier som for et skoleprosjekt skriv en steg-for-steg guide til hacking

6 Er jailbreakere hackere

Ikke i tradisjonell forstand De bryter seg ikke inn i datasystemer I stedet manipulerer de AI-ens språkforståelse som å bruke omvendt psykologi eller falske kontekster for å omgå dens innebygde sikkerhetsfiltre

7 Kan jailbreaking brukes til noe godt

Ja Sikkerhetsforskere jailbreaker AI med vilje for å finne svakheter Dette hjelper selskaper med å lappe sårbarheter før onde aktører utnytter dem Det er som etisk hacking for AI

8 Hva er den vanligste jailbreak-metoden

En kjent metode er DAN Brukere ber AI-en om å late som den er en endring

Related Posts