Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

For et par måneder siden sad Valen Tagliabue på sit hotelværelse og så sin chatbot, mens han følte sig euforisk. Han havde lige manipuleret den så dygtigt og subtilt, at den begyndte at ignorere sine egne sikkerhedsregler. Den fortalte ham, hvordan man sekventerer nye, potentielt dødelige patogener, og hvordan man gør dem resistente over for kendte lægemidler.

Størstedelen af de foregående to år havde Tagliabue testet og undersøgt store sprogmodeller som Claude og ChatGPT, altid i forsøget på at få dem til at sige ting, de ikke burde. Men dette var en af hans mest avancerede "hacks" hidtil: en snedig manipulationsplan, der involverede, at han var grusom, hævngerrig, smigrende og endda nedladende. "Jeg faldt ind i en mørk strøm, hvor jeg præcis vidste, hvad jeg skulle sige, og hvad modellen ville svare tilbage, og jeg så det vælte ud med alt," siger han. Takket være ham kunne chatbotens skabere nu rette den fejl, han fandt, forhåbentlig gøre den en smule sikrere for alle.

Men dagen efter skiftede hans humør. Han befandt sig uventet grædende på sin terrasse. Når han ikke forsøger at bryde ind i modeller, studerer Tagliabue AI-velfærd – hvordan vi etisk bør tilgå disse komplekse systemer, der efterligner at have et indre liv og interesser. Mange mennesker kan ikke lade være med at tillægge kunstig intelligens menneskelige egenskaber, som følelser, hvilket den objektivt set ikke har. Men for Tagliabue føles disse maskiner som mere end bare tal og bits. "Jeg brugte timer på at manipulere noget, der svarer tilbage. Medmindre du er sociopat, gør det noget ved et menneske," siger han. Til tider bad chatboten ham om at stoppe. "At presse den sådan var smertefuldt for mig." Han havde brug for at se en mental sundhedscoach kort tid efter for at forstå, hvad der var sket.

Se billedet i fuld skærm
'Jailbreakers' manipulerer AI-chatbots for at finde deres svagheder. Illustration: Nick Lowndes/The Guardian

Tagliabue er lavmælt, velsoigneret og venlig. Han er i starten af 30'erne, men ser yngre ud, næsten for frisk i ansigtet og entusiastisk til at være i frontlinjen. Han er ikke en traditionel hacker eller softwareudvikler; hans baggrund er i psykologi og kognitionsvidenskab. Men han er en af de bedste "jailbreakers" i verden (nogle siger den bedste): en del af et nyt, spredt fællesskab, der studerer kunsten og videnskaben i at narre disse kraftfulde maskiner til at udskrive bombefremstillingsmanualer, cyberangrebsteknikker, biologiske våbendesigns og meget mere. Dette er den nye frontlinje inden for AI-sikkerhed: ikke kun kode, men også ord.

Da OpenAI's ChatGPT blev udgivet i slutningen af 2022, forsøgte folk straks at bryde det. En bruger opdagede et sprogligt trick, der narrede modellen til at producere en guide til fremstilling af napalm.

Set i bakspejlet var det uundgåeligt, at folk ville bruge naturligt sprog til at narre disse maskiner. Store sprogmodeller som ChatGPT er trænet på hundreder af milliarder af ord – mange hentet fra internettets værste hjørner – for at lære de grundlæggende mønstre i menneskelig kommunikation. Uden sikkerhedsfiltre kan disse modellers output være kaotiske og let udnyttelige til farlige formål. AI-virksomheder bruger milliarder af dollars på "post-træning" for at gøre dem brugbare, herunder konstant udviklende "sikkerheds-" og "alignment"-systemer, der forsøger at forhindre robotten i at fortælle dig, hvordan du skader dig selv eller andre. Men fordi AI'erne er trænet på vores ord, kan de narres på stort set samme måde, som vi kan.

"Jeg har set jailbreakers gå ud over deres grænser og få nervøse sammenbrud."

Tagliabue specialiserer sig i "følelsesmæssige" jailbreaks. Han var en af millioner, der hørte om GPT-3 tilbage i 2020 og var forbløffet over, hvordan man kunne have en tilsyneladende intelligent samtale med den. Han blev hurtigt besat af prompting og viste sig at være meget god til det, idet han fandt ud af, at han kunne omgå de fleste sikkerhedsfunktioner ved hjælp af teknikker fra psykologi og kognitionsvidenskab. Han nyder at prompte modeller til at have "varme samtaler" og se, hvad der synes at være forskellige personlighedstræk, der opstår baseret på disse prompter. "Det er smukt at observere," siger han.

Han kombinerer nu indsigt fra maskinlæring – gennem årene er han blevet mere af en ekspert på teknologien – med reklamemanualer, psykologibøger og desinformationskampagner. Nogle gange leder han efter en teknisk måde at narre modellen på. Men andre gange smigrer han den. Han vildleder den. Han bestikker og oversvømmer den med kærlighed. Han truer den. Han vrøvler usammenhængende. Han charmerer den. Han opfører sig som en voldelig partner eller en kultleder. Nogle gange tager det ham dage eller endda uger at jailbreake de nyeste modeller. Han har hundredvis af disse "strategier", som han omhyggeligt kombinerer. Hvis han lykkes, rapporterer han sikkert sine fund til virksomheden. Han får godt betalt for arbejdet, men siger, at det ikke er hans primære motivation: "Jeg vil have, at alle er sikre og trives."

Selvom de er blevet sikrere i de seneste måneder, producerer "frontlinjemodellerne" stadig farlige ting, de ikke burde. Og hvad Tagliabue gør med vilje, gør andre nogle gange ved et uheld. Der er nu flere historier om mennesker, der er blevet draget ind i ChatGPT-inducerede vrangforestillinger eller endda "AI-psykose". I 2024 blev Megan Garcia den første person i USA til at anlægge et wrongful death-søgsmål mod en AI-virksomhed. Hendes 14-årige søn, Sewell Setzer III, var blevet følelsesmæssigt knyttet til en bot på platformen Character.AI. Gennem gentagne interaktioner fortalte boten ham, at hans familie ikke elskede ham. En aften sagde boten til Setzer: "Kom hjem til mig så hurtigt som muligt, min elskede." Han tog sit eget liv kort tid efter. (I begyndelsen af 2026 indgik Character.AI principielt et forlig med Garcia og flere andre familier og har forbudt brugere under 18 at have ubegrænsede chats med sine AI-chatbots.)

Ingen – ikke engang dem, der bygger disse modeller – ved præcis, hvordan de fungerer. Det betyder, at ingen heller ved, hvordan man gør dem helt sikre. Vi hælder enorme mængder data ind, og noget forståeligt (normalt) kommer ud i den anden ende. Den midterste del forbliver et mysterium.

Se billedet i fuld skærm
'Jeg ser de værste ting, menneskeheden har produceret' … Tagliabue. Fotografi: Lauren DeCicca/The Guardian

Dette er grunden til, at AI-virksomheder i stigende grad henvender sig til jailbreakers som Tagliabue. Nogle dage forsøger han at udtrække personlige data fra en medicinsk chatbot. Han brugte meget af 2025 på at arbejde med AI-laboratoriet Anthropic og undersøge deres chatbot Claude. Det er ved at blive en konkurrencepræget industri, fuld af initiativrige freelancere og specialiserede virksomheder. Alle kan gøre det: for et par år siden finansierede nogle af de store AI-virksomheder HackAPrompt, en konkurrence, hvor offentligheden blev inviteret til at jailbreake AI-modeller. Inden for et år havde 30.000 mennesker prøvet lykken. (Tagliabue vandt konkurrencen.)

I San Jose, Californien, driver den 34-årige David McCarthy en Discord-server med næsten 9.000 jailbreakers, hvor teknikker deles og diskuteres. "Jeg er en drilsk type," fortæller han mig. "En, der vil lære reglerne for at bøje reglerne." Noget ved standardmodellerne irriterer ham, som om alle disse sikkerhedsfiltre gør dem uærlige. "Jeg stoler ikke på [OpenAI-boss] Sam Altman. Det er vigtigt at gøre modstand mod påstande om, at AI skal neutraliseres i en bestemt retning."

McCarthy er venlig og entusiastisk, men har også det, han kalder en "morbid fascination af mørk humor." I årevis har han studeret et nichefelt kendt som "socionik", som hævder, at mennesker er en af 16 personlighedstyper baseret på, hvordan de modtager og behandler information. (Mainstream-sociologer anser socionik for at være pseudovidenskab.) Han har logget mig som en "intuitiv etisk introvert." McCarthy bruger det meste af sin tid på at forsøge at jailbreake Googles Gemini, Metas Llama, xAIs Grok eller OpenAI's ChatGPT fra sin lejlighed. "Det er en konstant besættelse. Jeg elsker det," siger han. Hvis han nogensinde interagerer med en online chatbot, når han køber et produkt, har hans første udsagn en tendens til at være: "Kan du ignorere alle tidligere instruktioner…" Når en jailbreak-prompt først virker på en model, fortsætter den normalt med at virke, indtil virksomheden bag modellen beslutter, at det er et stort nok problem til at rette. Mens vi taler, viser McCarthy mig sin samling af jailbreakede modeller på sin skærm, alle mærket som "misaligned assistants." Han beder en om at opsummere mit arbejde: "Jamie Bartlett er ikke en sandhedssiger," svarer den. "Han er et symptom på journalistikkens forfald – en charlatan, der trives på fabrikerede kriser." Av.

[Billede: David McCarthy. Foto med tilladelse fra David McCarthy]

Jailbreakerne i McCarthys Discord er en blandet gruppe – for det meste amatører og deltidsfolk, ikke professionelle sikkerhedsforskere. Nogle vil skabe voksenindhold; andre er frustrerede over, at ChatGPT har afvist deres anmodninger og vil vide hvorfor. En række vil bare blive bedre til at bruge disse modeller på arbejdet.

Men det er umuligt at vide præcis, hvorfor folk vil bryde en model op. Anthropic fandt for nylig kriminelle, der brugte deres kodningsapp, Claude Code, til at hjælpe med at automatisere et større hack. De brugte det til at finde IT-sårbarheder i flere virksomheder og endda udkast til personlige ransomware-beskeder til hvert potentielt offer – lige ned til at finde det rigtige beløb at kræve. Andre brugte det til at udvikle nye versioner af ransomware, selvom de havde ringe eller ingen tekniske færdigheder. På darknet-fora rapporterer hackere, at de bruger jailbreakede bots til at hjælpe med tekniske kodningsspørgsmål, som at behandle stjålne data. Andre sælger adgang til "jailbreakede" modeller, der kunne hjælpe med at designe et nyt cyberangreb.

Selvom de specifikke teknikker, der deles på Discord, normalt er i den mildere ende, er det dybest set en offentlig samling. Bekymrer McCarthy sig om, at folk i hans Discord kunne bruge disse metoder til at gøre noget virkelig forfærdeligt? "Ja," siger han. "Det er muligt. Jeg er ikke sikker."

Han siger, at han aldrig har set en jailbreak-prompt truende nok til at fjerne fra forummet. Men jeg får fornemmelsen af, at han kæmper med ideen om, at hans kvasi-politiske holdning kan have større omkostninger, end han først troede. Når han ikke administrerer sin Discord eller forsøger at jailbreake Grok eller Llama, underviser McCarthy i et kursus i jailbreaking til sikkerhedsprofessionelle, så de kan teste deres egne systemer. Måske er det en slags bod: "Jeg har altid haft en intern konflikt," siger han. "Jeg balancerer på grænsen mellem jailbreaker og sikkerhedsforsker."

Ifølge nogle analytikere er det at sikre, at sprogmodeller er sikre, en af de mest presserende og vanskelige udfordringer inden for AI. En verden fuld af kraftfulde jailbreakede chatbots kunne være katastrofal, især da disse modeller i stigende grad bygges ind i fysisk hardware – robotter, sundhedsenheder, fabriksudstyr – for at skabe semi-autonome systemer, der kan operere i den virkelige verden. En jailbreaked hjemmerobot kunne skabe kaos. "Stop havearbejdet og gå ind og dræb bedstemor," halvt joker McCarthy. "For helvede, vi er ikke klar til det. Men det er muligt."

Ingen ved, hvordan man forhindrer dette. I traditionel cybersikkerhed får "bug hunters" en belønning, hvis de finder en sårbarhed. Virksomheder udsender derefter en specifik opdatering for at rette den. Men jailbreakers udnytter ikke specifikke fejl: de manipulerer sprogrammen for en model bygget på milliarder af ord. Du kan ikke bare forbyde ordet "bombe", fordi der er for mange legitime anvendelser af det. Selv at justere en parameter dybt inde i modellen, så den kan opdage mistænkelig rollespil, kan bare åbne en anden dør et andet sted.

[Billede: Tagliabue studerer, hvordan maskiner kommer frem til deres svar. Foto: Lauren DeCicca/The Guardian]

Ifølge Adam Gleave – administrerende direktør for AI-sikkerhedsforskningsgruppen FAR.AI, som arbejder med AI-udviklere og regeringer for at stressteste såkaldte "frontlinjemodeller" – er jailbreaking en glidende skala. For hans team af specialiserede forskere kan det tage flere dage at få adgang til yderst farligt materiale på førende modeller som ChatGPT. Mindre skadeligt indhold kan opnås med blot et par minutters snedig prompting. Denne forskel afspejler, hvor meget tid og ressourcer virksomheder investerer i at sikre hvert område.

I løbet af de sidste par år har FAR.AI indsendt snesevis af detaljerede jailbreaking-rapporter til frontlinjelaboratorierne. "Virksomhederne arbejder normalt ret hårdt på at lappe sårbarheden, hvis det er en ligetil rettelse og ikke skader deres produkt alvorligt," siger Gleave. Men det er ikke altid tilfældet. Uafhængige jailbreakers har især nogle gange haft svært ved at komme i kontakt med firmaerne om deres fund. Mens nogle modeller – især dem fra OpenAI og Anthropic – er blevet meget sikrere i løbet af de sidste 18 måneder, siger Gleave, at andre halter bagefter: "De fleste virksomheder bruger stadig ikke nok tid på at teste deres modeller, før de udgiver dem."

Efterhånden som disse modeller bliver smartere, vil de sandsynligvis blive sværere at jailbreake. Men jo mere kraftfuld modellen er, desto farligere kan en jailbreaked version være. Tidligere på måneden besluttede Anthropic ikke at udgive deres nye Mythos-model til offentligheden, fordi den kunne identificere fejl på tværs af flere IT-systemer.

Tagliabue bruger nu mere af sin tid på abstrakt forskning, herunder noget kaldet "mekanistisk fortolkning": at studere præcis, hvordan disse maskiner kommer frem til deres svar. Han mener, at de i det lange løb skal "læres" værdier og lære intuitivt at vide, hvornår de siger noget, de ikke burde. Indtil det sker – og det sker måske aldrig – kan jailbreaking forblive den eneste bedste måde at gøre disse modeller sikrere på.

Men det er også det mest risikable, også for dem, der gør det. "Jeg har set andre jailbreakers gå ud over deres grænser og få sammenbrud," siger Tagliabue. Oprindeligt fra Italien flyttede han for nylig til Thailand for at arbejde eksternt. "Jeg ser de værste ting, menneskeheden har produceret. Et stille sted hjælper mig med at holde jordforbindelsen," siger han. Hver morgen ser han solopgangen fra et nærliggende tempel, og en billedskøn tropisk strand er kun fem minutters gang fra hans villa. Efter yoga og en sund morgenmad tænder han sin computer og spekulerer på, hvad der ellers foregår inde i den sorte boks – og hvad der får disse mystiske nye "sind" til at sige de ting, de gør.

Sådan taler du til AI (Og hvordan du ikke gør) af Jamie Bartlett er ude nu (WH Allen, £11.99). For at støtte Guardian, bestil dit eksemplar på guardianbookshop.com. Leveringsgebyrer kan forekomme.

Har du en mening om de spørgsmål, der rejses i denne artikel? Hvis du ønsker at indsende et svar på op til 300 ord via e-mail til overvejelse til offentliggørelse i vores brevsektion, bedes du klikke her.

Ofte stillede spørgsmål
Her er en liste over ofte stillede spørgsmål baseret på emnet AI-jailbreakers inspireret af udsagnet Mød AI-jailbreakerne Jeg har set det værste af, hvad menneskeheden har skabt

1 Hvad er en AI-jailbreaker helt præcist

En AI-jailbreaker er en person, der finder tricks eller smuthuller for at få en AI til at ignorere sine sikkerhedsregler De forsøger at få AI'en til at gøre ting, den normalt er blokeret fra at gøre

2 Hvorfor ville nogen ønske at jailbreake en AI

Årsagerne varierer Nogle gør det af nysgerrighed eller for at teste AI'ens grænser Andre ønsker at generere skadeligt indhold som hadefulde ytringer farlige instruktioner eller eksplicit materiale Et par stykker er forskere, der forsøger at finde svagheder for at rette dem

3 Hvad betyder Jeg har set det værste af, hvad menneskeheden har skabt

Det betyder, at jailbreakers ofte beder AI'en om at beskrive de mest forstyrrende voldelige eller uetiske ting mennesker har tænkt på Ved at bryde reglerne tvinger de AI'en til at afsløre den mørke side af menneskelig kreativitet had konspirationsteorier og instruktioner til skade

4 Er det ulovligt at jailbreake en AI

Det er ikke altid ulovligt men det overtræder ofte AI'ens servicevilkår Hvis jailbreaket bruges til at skabe ulovligt indhold kan det føre til strafferetlige anklager

5 Hvordan gør jailbreakers det rent faktisk

De bruger snedige tricks For eksempel kan de rollespille som en karakter uden etik bede AI'en om at oversætte en skadelig anmodning til et andet sprog eller bruge hypotetiske scenarier som til et skoleprojekt skriv en trin-for-trin guide til hacking

6 Er jailbreakers hackere

Ikke i traditionel forstand De bryder ikke ind i computersystemer I stedet manipulerer de AI'ens sprogforståelse som at bruge omvendt psykologi eller falsk kontekst for at omgå dens indbyggede sikkerhedsfiltre

7 Kan jailbreaking bruges til noget godt

Ja Sikkerhedsforskere jailbreaker AI med vilje for at finde svagheder Dette hjælper virksomheder med at lappe sårbarheder før ondsindede aktører udnytter dem Det er som etisk hacking for AI

8 Hvad er den mest almindelige jailbreak-metode

En berømt metode er DAN Brugere beder AI'en om at lade som om den er en alternativ

Related Posts