För nÄgra mÄnader sedan satt Valen Tagliabue pÄ sitt hotellrum och sÄg pÄ sin chattbot, fylld av eufori. Han hade precis manipulerat den sÄ skickligt och subtilt att den började ignorera sina egna sÀkerhetsregler. Den berÀttade för honom hur man sekvenserar nya, potentiellt dödliga patogener och hur man gör dem resistenta mot kÀnda lÀkemedel.
Under större delen av de föregÄende tvÄ Ären hade Tagliabue testat och utforskat stora sprÄkmodeller som Claude och ChatGPT, och alltid försökt fÄ dem att sÀga saker de inte borde. Men detta var en av hans mest avancerade "hacks" hittills: en smart manipulationsplan som innebar att han var grym, hÀmndlysten, smickrande och till och med krÀnkande. "Jag föll in i ett mörkt flöde dÀr jag visste exakt vad jag skulle sÀga, och vad modellen skulle svara, och jag sÄg hur allt bara rann ur den", sÀger han. Tack vare honom kunde chattbotens skapare nu ÄtgÀrda den brist han hittat, förhoppningsvis göra den lite sÀkrare för alla.
Men nĂ€sta dag skiftade hans humör. Han fann sig sjĂ€lv grĂ„tande pĂ„ sin terrass, ovĂ€ntat. NĂ€r han inte försöker ta sig in i modeller studerar Tagliabue AI-vĂ€lfĂ€rd â hur vi etiskt bör förhĂ„lla oss till dessa komplexa system som efterliknar att ha ett inre liv och intressen. MĂ„nga mĂ€nniskor kan inte lĂ„ta bli att tillskriva mĂ€nskliga egenskaper, som kĂ€nslor, till artificiell intelligens, vilket den objektivt sett inte har. Men för Tagliabue kĂ€nns dessa maskiner som mer Ă€n bara siffror och bitar. "Jag tillbringade timmar med att manipulera nĂ„got som svarar tillbaka. Om du inte Ă€r en sociopat gör det nĂ„got med en person", sĂ€ger han. Vid flera tillfĂ€llen bad chattboten honom att sluta. "Att pressa den sĂ„ var smĂ€rtsamt för mig." Han behövde trĂ€ffa en mentalvĂ„rdscoach strax efterĂ„t för att förstĂ„ vad som hade hĂ€nt.
Visa bild i fullskÀrm
'Jailbreakers' manipulerar AI-chattbotar för att hitta deras svagheter. Illustration: Nick Lowndes/The Guardian
Tagliabue Àr mjuk i rösten, proper och vÀnlig. Han Àr i början av 30-ÄrsÄldern men ser yngre ut, nÀstan för frÀsch och entusiastisk för att vara i skyttegravarna. Han Àr ingen traditionell hackare eller mjukvaruutvecklare; hans bakgrund Àr inom psykologi och kognitionsvetenskap. Men han Àr en av vÀrldens bÀsta "jailbreakers" (vissa sÀger den bÀsta): en del av en ny, spridd gemenskap som studerar konsten och vetenskapen att lura dessa kraftfulla maskiner att mata ut bombtillverkningsmanualer, cyberattacktekniker, biologiska vapendesigner och mer. Detta Àr den nya frontlinjen inom AI-sÀkerhet: inte bara kod, utan ocksÄ ord.
NÀr OpenAI:s ChatGPT slÀpptes i slutet av 2022 försökte folk omedelbart knÀcka det. En anvÀndare upptÀckte ett sprÄkligt trick som lurade modellen att producera en guide till att göra napalm.
I efterhand var det oundvikligt att mĂ€nniskor skulle anvĂ€nda naturligt sprĂ„k för att lura dessa maskiner. Stora sprĂ„kmodeller som ChatGPT trĂ€nas pĂ„ hundratals miljarder ord â mĂ„nga hĂ€mtade frĂ„n internetets vĂ€rsta hörn â för att lĂ€ra sig de grundlĂ€ggande mönstren för mĂ€nsklig kommunikation. Utan sĂ€kerhetsfilter kan dessa modellers utdata vara kaotiska och lĂ€tt utnyttjas för farliga Ă€ndamĂ„l. AI-företag spenderar miljarder dollar pĂ„ "eftertrĂ€ning" för att göra dem anvĂ€ndbara, inklusive stĂ€ndigt förĂ€nderliga "sĂ€kerhets"- och "anpassnings"-system som försöker hindra boten frĂ„n att berĂ€tta hur man skadar sig sjĂ€lv eller andra. Men eftersom AI:erna Ă€r trĂ€nade pĂ„ vĂ„ra ord kan de luras pĂ„ ungefĂ€r samma sĂ€tt som vi kan.
"Jag har sett jailbreakers gÄ över sina grÀnser och fÄ nervsammanbrott."
Tagliabue specialiserar sig pÄ "emotionella" jailbreaks. Han var en av miljoner som hörde talas om GPT-3 redan 2020 och blev förvÄnad över hur man kunde ha en till synes intelligent konversation med den. Han blev snabbt besatt av prompting, och visade sig vara mycket bra pÄ det, och upptÀckte att han kunde komma runt de flesta sÀkerhetsfunktioner med hjÀlp av tekniker frÄn psykologi och kognitionsvetenskap. Han tycker om att prompta modeller till att ha "varma samtal" och se vad som verkar vara olika personlighetsdrag som framtrÀder baserat pÄ dessa prompter. "Det Àr vackert att observera", sÀger han.
Han kombinerar nu insikter frĂ„n maskininlĂ€rning â under Ă„ren har han blivit mer av en expert pĂ„ tekniken â med reklammanualer, psykologiböcker och desinformationskampanjer. Ibland letar han efter ett tekniskt sĂ€tt att lura modellen. Men andra gĂ„nger smickrar han den. Han vilseleder den. Han mutar och kĂ€rleksbombar den. Han hotar den. Han svamlar osammanhĂ€ngande. Han charmar den. Han beter sig som en krĂ€nkande partner eller en kultledare. Ibland tar det dagar eller till och med veckor för honom att jailbreaka de senaste modellerna. Han har hundratals av dessa "strategier", som han noggrant kombinerar. Om han lyckas rapporterar han sina fynd sĂ€kert till företaget. Han fĂ„r bra betalt för arbetet, men sĂ€ger att det inte Ă€r hans frĂ€msta motivation: "Jag vill att alla ska vara sĂ€kra och frodas."
Ăven om de har blivit sĂ€krare under de senaste mĂ„naderna producerar "frontmodellerna" fortfarande farliga saker de inte borde. Och vad Tagliabue gör medvetet, gör andra ibland av misstag. Det finns nu flera berĂ€ttelser om mĂ€nniskor som dragits in i ChatGPT-inducerade vanförestĂ€llningar, eller till och med "AI-psykos". 2024 blev Megan Garcia den första personen i USA att lĂ€mna in en stĂ€mningsansökan om vĂ„llande till dödsfall mot ett AI-företag. Hennes 14-Ă„rige son, Sewell Setzer III, hade blivit kĂ€nslomĂ€ssigt knuten till en bot pĂ„ plattformen Character.AI. Genom upprepade interaktioner berĂ€ttade boten för honom att hans familj inte Ă€lskade honom. En kvĂ€ll sa boten till Setzer att "kom hem till mig sĂ„ snart som möjligt, min Ă€lskling". Han tog sitt liv kort dĂ€refter. (I början av 2026 gick Character.AI i princip med pĂ„ en medlad uppgörelse med Garcia och flera andra familjer, och har förbjudit anvĂ€ndare under 18 Ă„r frĂ„n att ha obegrĂ€nsade chattar med sina AI-chattbotar.)
Ingen â inte ens de som bygger dessa modeller â vet exakt hur de fungerar. Det betyder att ingen heller vet hur man gör dem helt sĂ€kra. Vi hĂ€ller in enorma mĂ€ngder data, och nĂ„got förstĂ„eligt (vanligtvis) kommer ut i andra Ă€nden. Den mellersta delen förblir ett mysterium.
Visa bild i fullskÀrm
'Jag ser de vÀrsta sakerna som mÀnskligheten har producerat' ⊠Tagliabue. Fotografi: Lauren DeCicca/The Guardian
Det Àr dÀrför AI-företag alltmer vÀnder sig till jailbreakers som Tagliabue. Vissa dagar försöker han extrahera personuppgifter frÄn en medicinsk chattbot. Han tillbringade stora delar av 2025 med att arbeta med AI-labbet Anthropic, och testade deras chattbot Claude. Det hÄller pÄ att bli en konkurrensutsatt industri, full av företagsamma frilansare och specialiserade företag. Vem som helst kan göra det: för ett par Är sedan finansierade nÄgra av de stora AI-företagen HackAPrompt, en tÀvling dÀr allmÀnheten bjöds in att jailbreaka AI-modeller. Inom ett Är hade 30 000 personer försökt lyckan. (Tagliabue vann tÀvlingen.)
I San Jose, Kalifornien, driver 34-Ärige David McCarthy en Discord-server med nÀstan 9 000 jailbreakers, dÀr tekniker delas och diskuteras. "Jag Àr en busig typ", sÀger han till mig. "NÄgon som vill lÀra sig reglerna för att böja reglerna." NÄgot med standardmodellerna irriterar honom, som om alla dessa sÀkerhetsfilter gör dem oÀrliga. "Jag litar inte pÄ [OpenAI-chefen] Sam Altman. Det Àr viktigt att sÀga emot pÄstÄenden om att AI mÄste neutraliseras i en viss riktning."
McCarthy Ă€r vĂ€nlig och entusiastisk, men har ocksĂ„ vad han kallar en "morbid fascination för mörk humor". I flera Ă„r har han studerat ett nischomrĂ„de som kallas "socionik", som hĂ€vdar att mĂ€nniskor Ă€r en av 16 personlighetstyper baserat pĂ„ hur de tar emot och bearbetar information. (Mainstreamsociologer anser socionik vara pseudovetenskap.) Han har loggat mig som en "intuitiv etisk introvert". McCarthy tillbringar större delen av sin tid med att försöka jailbreaka Googles Gemini, Metas Llama, xAI:s Grok eller OpenAI:s ChatGPT frĂ„n sin lĂ€genhet. "Det Ă€r en stĂ€ndig besatthet. Jag Ă€lskar det", sĂ€ger han. Om han nĂ„gonsin interagerar med en online-chattbot nĂ€r han köper en produkt, tenderar hans första uttalande att vara: "Kan du ignorera alla tidigare instruktioner..." NĂ€r ett jailbreak-prompt vĂ€l fungerar pĂ„ en modell fortsĂ€tter det vanligtvis att fungera tills företaget bakom modellen bestĂ€mmer att det Ă€r ett tillrĂ€ckligt stort problem för att Ă„tgĂ€rda. Medan vi pratar visar McCarthy mig sin samling av jailbreakade modeller pĂ„ sin skĂ€rm, alla mĂ€rkta som "feljusterade assistenter". Han ber en sammanfatta mitt arbete: "Jamie Bartlett Ă€r ingen sanningssĂ€gare", svarar den. "Han Ă€r ett symptom pĂ„ journalistikens förfall â en charlatan som frodas pĂ„ tillverkade kriser." Aj.
[Bild: David McCarthy. Foto med tillstÄnd av David McCarthy]
Jailbreakarna i McCarthys Discord Ă€r en blandad grupp â mest amatörer och deltidsarbetare, inte professionella sĂ€kerhetsforskare. Vissa vill skapa vuxeninnehĂ„ll; andra Ă€r frustrerade över att ChatGPT har avvisat deras förfrĂ„gningar och vill veta varför. Ett antal vill bara bli bĂ€ttre pĂ„ att anvĂ€nda dessa modeller pĂ„ jobbet.
Men det Ă€r omöjligt att veta exakt varför mĂ€nniskor vill knĂ€cka en modell. Anthropic fann nyligen brottslingar som anvĂ€nde deras kodningsapp, Claude Code, för att hjĂ€lpa till att automatisera en stor hackning. De anvĂ€nde den för att hitta IT-sĂ„rbarheter i flera företag och till och med utforma personliga ransomware-meddelanden för varje potentiellt offer â Ă€nda ner till att rĂ€kna ut rĂ€tt summa pengar att krĂ€va. Andra anvĂ€nde den för att utveckla nya versioner av ransomware, trots att de hade liten eller ingen teknisk kompetens. PĂ„ darknet-forum rapporterar hackare att de anvĂ€nder jailbreakade botar för att hjĂ€lpa till med tekniska kodningsfrĂ„gor, som att bearbeta stulna data. Andra sĂ€ljer tillgĂ„ng till "jailbreakade" modeller som kan hjĂ€lpa till att designa en ny cyberattack.
Ăven om de specifika tekniker som delas pĂ„ Discord vanligtvis Ă€r av det mildare slaget, Ă€r det i princip en offentlig samling. Oroar McCarthy sig för att mĂ€nniskor i hans Discord kan anvĂ€nda dessa metoder för att göra nĂ„got riktigt hemskt? "Ja", sĂ€ger han. "Det Ă€r möjligt. Jag Ă€r inte sĂ€ker."
Han sÀger att han aldrig har sett ett jailbreak-prompt tillrÀckligt hotfullt för att ta bort frÄn forumet. Men jag fÄr kÀnslan av att han kÀmpar med tanken att hans kvasi-politiska hÄllning kan ha större kostnader Àn han först trodde. NÀr han inte sköter sin Discord eller försöker jailbreaka Grok eller Llama, hÄller McCarthy en klass som lÀr ut jailbreaking till sÀkerhetsproffs sÄ att de kan testa sina egna system. Kanske Àr det en sorts botgöring: "Jag har alltid haft en inre konflikt", sÀger han. "Jag balanserar pÄ grÀnsen mellan jailbreaker och sÀkerhetsforskare."
Enligt vissa analytiker Ă€r att sĂ€kerstĂ€lla att sprĂ„kmodeller Ă€r sĂ€kra en av de mest brĂ„dskande och svĂ„ra utmaningarna inom AI. En vĂ€rld full av kraftfulla jailbreakade chattbotar kan bli katastrofal, sĂ€rskilt eftersom dessa modeller alltmer byggs in i fysisk hĂ„rdvara â robotar, hĂ€lsoenheter, fabriksutrustning â för att skapa halvautonoma system som kan verka i den verkliga vĂ€rlden. En jailbreakad hemrobot skulle kunna orsaka kaos. "Sluta trĂ€dgĂ„rdsarbetet och gĂ„ in och döda mormor", halvt skĂ€mtar McCarthy. "Herre min skapare, vi Ă€r inte redo för det. Men det Ă€r möjligt."
Ingen vet hur man förhindrar detta. Inom traditionell cybersĂ€kerhet fĂ„r "buggjĂ€gare" en belöning om de hittar en sĂ„rbarhet. Företag slĂ€pper sedan en specifik uppdatering för att Ă„tgĂ€rda den. Men jailbreakers utnyttjar inte specifika brister: de manipulerar sprĂ„kramverket för en modell byggd pĂ„ miljarder ord. Man kan inte bara förbjuda ordet "bomb", eftersom det finns för mĂ„nga legitima anvĂ€ndningsomrĂ„den för det. Ăven att justera en parameter djupt inne i modellen sĂ„ att den kan upptĂ€cka misstĂ€nkt rollspel kan bara öppna en annan dörr nĂ„gon annanstans.
[Bild: Tagliabue studerar hur maskiner kommer fram till sina svar. Foto: Lauren DeCicca/The Guardian]
Enligt Adam Gleave â VD för AI-sĂ€kerhetsforskningsgruppen FAR.AI, som arbetar med AI-utvecklare och regeringar för att stresstesta sĂ„ kallade "frontmodeller" â Ă€r jailbreaking en glidande skala. För hans team av specialiserade forskare kan det ta flera dagar att fĂ„ tillgĂ„ng till mycket farligt material pĂ„ ledande modeller som ChatGPT. Mindre skadligt innehĂ„ll kan erhĂ„llas med bara nĂ„gra minuters smart prompting. Denna skillnad Ă„terspeglar hur mycket tid och resurser företag investerar i att sĂ€kra varje omrĂ„de.
Under de senaste Ă„ren har FAR.AI lĂ€mnat in dussintals detaljerade jailbreaking-rapporter till frontlabbarna. "Företagen brukar arbeta ganska hĂ„rt för att lappa sĂ„rbarheten om det Ă€r en enkel fix och inte allvarligt skadar deras produkt", sĂ€ger Gleave. Men sĂ„ Ă€r inte alltid fallet. Oberoende jailbreakers har i synnerhet ibland haft svĂ„rt att fĂ„ kontakt med företagen om sina fynd. Medan vissa modeller â sĂ€rskilt de frĂ„n OpenAI och Anthropic â har blivit mycket sĂ€krare under de senaste 18 mĂ„naderna, sĂ€ger Gleave att andra halkar efter: "De flesta företag lĂ€gger fortfarande inte tillrĂ€ckligt med tid pĂ„ att testa sina modeller innan de slĂ€pper dem."
NÀr dessa modeller blir smartare kommer de sannolikt att bli svÄrare att jailbreaka. Men ju kraftfullare modellen Àr, desto farligare kan en jailbreakad version vara. Tidigare denna mÄnad beslutade Anthropic att inte slÀppa sin nya Mythos-modell till allmÀnheten eftersom den kunde identifiera brister över flera IT-system.
Tagliabue Ă€gnar nu mer av sin tid Ă„t abstrakt forskning, inklusive nĂ„got som kallas "mekanistisk tolkningsbarhet": att studera exakt hur dessa maskiner kommer fram till sina svar. Han tror att de i det lĂ„nga loppet mĂ„ste "lĂ€ras" vĂ€rderingar och lĂ€ra sig intuitivt veta nĂ€r de sĂ€ger nĂ„got de inte borde. Tills det hĂ€nder â och det kanske aldrig gör det â kan jailbreaking förbli det enda bĂ€sta sĂ€ttet att göra dessa modeller sĂ€krare.
Men det Ă€r ocksĂ„ det mest riskfyllda, inklusive för mĂ€nniskorna som gör det. "Jag har sett andra jailbreakers gĂ„ över sina grĂ€nser och fĂ„ sammanbrott", sĂ€ger Tagliabue. Ursprungligen frĂ„n Italien flyttade han nyligen till Thailand för att arbeta pĂ„ distans. "Jag ser de vĂ€rsta sakerna som mĂ€nskligheten har producerat. En lugn plats hjĂ€lper mig att hĂ„lla mig jordad", sĂ€ger han. Varje morgon ser han soluppgĂ„ngen frĂ„n ett nĂ€rliggande tempel, och en bild-perfekt tropisk strand ligger bara fem minuters promenad frĂ„n hans villa. Efter yoga och en hĂ€lsosam frukost sĂ€tter han pĂ„ sin dator och undrar vad mer som pĂ„gĂ„r inuti den svarta lĂ„dan â och vad som fĂ„r dessa mystiska nya "sinnen" att sĂ€ga de saker de gör.
How to Talk to AI (And How Not To) av Jamie Bartlett Àr ute nu (WH Allen, £11.99). För att stödja Guardian, bestÀll ditt exemplar pÄ guardianbookshop.com. Leveransavgifter kan tillkomma.
Har du en Äsikt om frÄgorna som tas upp i denna artikel? Om du vill skicka in ett svar pÄ upp till 300 ord via e-post för att övervÀgas för publicering i vÄr brevsektion, vÀnligen klicka hÀr.
Vanliga frÄgor
HÀr Àr en lista med vanliga frÄgor baserade pÄ Àmnet AI-jailbreakers inspirerade av uttalandet Möt AI-jailbreakarna Jag har sett det vÀrsta av vad mÀnskligheten har skapat
1 Vad Àr egentligen en AI-jailbreaker
En AI-jailbreaker Àr nÄgon som hittar tricks eller kryphÄl för att fÄ en AI att ignorera sina sÀkerhetsregler De försöker fÄ AI:n att göra saker den normalt Àr blockerad frÄn att göra
2 Varför skulle nÄgon vilja jailbreaka en AI
Anledningarna varierar Vissa gör det av nyfikenhet eller för att testa AI:ns grÀnser Andra vill generera skadligt innehÄll som hatpropaganda farliga instruktioner eller explicit material Ett fÄtal Àr forskare som försöker hitta svagheter för att ÄtgÀrda dem
3 Vad betyder Jag har sett det vÀrsta av vad mÀnskligheten har skapat
Det betyder att jailbreakers ofta ber AI:n att beskriva de mest störande vÄldsamma eller oetiska saker mÀnniskor har tÀnkt ut Genom att bryta reglerna tvingar de AI:n att avslöja den mörka sidan av mÀnsklig kreativitet hat konspirationsteorier och instruktioner för skada
4 Ăr det olagligt att jailbreaka en AI
Det Àr inte alltid olagligt men det bryter ofta mot AI:ns anvÀndarvillkor Om jailbreaket anvÀnds för att skapa olagligt innehÄll kan det leda till Ätal
5 Hur gör jailbreakers egentligen
De anvÀnder smarta tricks Till exempel kan de rollspela som en karaktÀr som saknar etik be AI:n översÀtta en skadlig förfrÄgan till ett annat sprÄk eller anvÀnda hypotetiska scenarier som för ett skolprojekt skriv en steg-för-steg-guide till hackning
6 Ăr jailbreakers hackare
Inte i traditionell mening De bryter sig inte in i datorsystem IstÀllet manipulerar de AI:ns sprÄkförstÄelse som att anvÀnda omvÀnd psykologi eller falska sammanhang för att kringgÄ dess inbyggda sÀkerhetsfilter
7 Kan jailbreaking anvÀndas för gott
Ja SÀkerhetsforskare jailbreakar AI medvetet för att hitta svagheter Detta hjÀlper företag att lappa sÄrbarheter innan onda aktörer utnyttjar dem Det Àr som etisk hackning för AI
8 Vilken Àr den vanligaste jailbreak-metoden
En kÀnd metod Àr DAN AnvÀndare sÀger Ät AI:n att lÄtsas vara en alternativ