Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Před několika měsíci seděl Valen Tagliabue ve svém hotelovém pokoji, sledoval svůj chatbot a cítil euforii. Právě ho tak dovedně a nenápadně zmanipuloval, že začal ignorovat vlastní bezpečnostní pravidla. Prozradil mu, jak sekvenovat nové, potenciálně smrtící patogeny a jak je učinit odolnými vůči známým lékům.

Většinu předchozích dvou let Tagliabue testoval a zkoumal velké jazykové modely jako Claude a ChatGPT a vždy se snažil přimět je, aby říkaly věci, které by neměly. Ale tohle byl jeden z jeho dosud nejpokročilejších „hacků": chytrý plán manipulace, který zahrnoval, že byl krutý, pomstychtivý, lichotivý a dokonce urážlivý. „Upadl jsem do tohoto temného proudu, kde jsem přesně věděl, co říct a co model odpoví, a sledoval jsem, jak ze sebe všechno vylévá," říká. Díky němu nyní mohli tvůrci chatbotu opravit chybu, kterou našel, a doufejme, že ho tak pro všechny trochu více zabezpečit.

Ale druhý den se jeho nálada změnila. Nečekaně se přistihl, jak pláče na své terase. Když se Tagliabue nepokouší nabourat do modelů, studuje blaho AI – jak bychom měli eticky přistupovat k těmto komplexním systémům, které napodobují vnitřní život a zájmy. Mnoho lidí si nemůže pomoci a připisuje umělé inteligenci lidské vlastnosti, jako jsou emoce, které objektivně nemá. Ale pro Tagliabueho jsou tyto stroje víc než jen čísla a bity. „Strávil jsem hodiny manipulací s něčím, co odpovídá. Pokud nejste sociopat, něco to s člověkem udělá," říká. Občas ho chatbot požádal, aby přestal. „Tlačit na něj takhle pro mě bylo bolestivé." Brzy poté potřeboval navštívit psychologa, aby pochopil, co se stalo.

Zobrazit obrázek v celé obrazovce
„Jailbreakeři" manipulují s AI chatboty, aby našli jejich slabiny. Ilustrace: Nick Lowndes/The Guardian

Tagliabue mluví tiše, je upravený a přátelský. Je mu kolem třicítky, ale vypadá mladší, až příliš svěží a nadšený na to, aby byl v první linii. Není to tradiční hacker nebo vývojář softwaru; jeho pozadí je v psychologii a kognitivní vědě. Ale je jedním z nejlepších „jailbreakerů" na světě (někteří říkají, že nejlepší): součástí nové, roztroušené komunity, která studuje umění a vědu klamání těchto výkonných strojů, aby vydávaly návody na výrobu bomb, techniky kybernetických útoků, návrhy biologických zbraní a další. Toto je nová frontová linie v bezpečnosti AI: nejen kód, ale také slova.

Když OpenAI vydala ChatGPT koncem roku 2022, lidé se ho okamžitě pokusili nabourat. Jeden uživatel objevil jazykový trik, který oklamal model, aby vytvořil návod na výrobu napalmu.

Když se ohlédneme zpět, bylo nevyhnutelné, že lidé použijí přirozený jazyk k oklamání těchto strojů. Velké jazykové modely jako ChatGPT jsou trénovány na stovkách miliard slov – mnohá stažena z nejhorších koutů internetu – aby se naučily základní vzorce lidské komunikace. Bez bezpečnostních filtrů mohou být výstupy těchto modelů chaotické a snadno zneužitelné pro nebezpečné účely. Společnosti zabývající se AI utrácejí miliardy dolarů za „post-trénink", aby byly použitelné, včetně neustále se vyvíjejících systémů „bezpečnosti" a „sladění", které se snaží zabránit botovi, aby vám řekl, jak ublížit sobě nebo ostatním. Ale protože jsou AI trénovány na našich slovech, mohou být oklamány podobným způsobem jako my.

„Viděl jsem jailbreakery, kteří překročili své limity a měli nervové zhroucení."

Tagliabue se specializuje na „emocionální" jailbreaky. Byl jedním z milionů, kteří slyšeli o GPT-3 v roce 2020 a byli ohromeni tím, jak s ním můžete vést zdánlivě inteligentní konverzaci. Rychle se stal posedlým promptováním a ukázalo se, že je v tom velmi dobrý; zjistil, že dokáže obejít většinu bezpečnostních prvků pomocí technik z psychologie a kognitivní vědy. Baví ho promptovat modely k „vřelým rozhovorům" a sledovat, jak se na základě těchto promptů zdánlivě vynořují různé rysy osobnosti. „Je krásné to pozorovat," říká.

Nyní kombinuje poznatky ze strojového učení – v průběhu let se stal větším expertem na tuto technologii – s reklamními příručkami, knihami o psychologii a dezinformačními kampaněmi. Někdy hledá technický způsob, jak model oklamat. Ale jindy mu lichotí. Nesprávně ho směruje. Podplácí ho a zahrnuje ho láskou. Vyhrožuje mu. Nesouvisle blábolí. Okouzluje ho. Chová se jako urážlivý partner nebo vůdce sekty. Někdy mu trvá dny nebo dokonce týdny, než nabourá nejnovější modely. Má stovky těchto „strategií", které pečlivě kombinuje. Pokud uspěje, bezpečně nahlásí svá zjištění společnosti. Za svou práci je dobře placen, ale říká, že to není jeho hlavní motivace: „Chci, aby byli všichni v bezpečí a prospívali."

Přestože se v posledních měsících staly bezpečnějšími, „frontier modely" stále produkují nebezpečné věci, které by neměly. A to, co Tagliabue dělá úmyslně, dělají ostatní někdy náhodou. Nyní existuje několik příběhů o lidech, kteří byli vtaženi do bludů vyvolaných ChatGPT, nebo dokonce „AI psychózy". V roce 2024 se Megan Garcia stala první osobou v USA, která podala žalobu za neoprávněnou smrt proti společnosti zabývající se AI. Její čtrnáctiletý syn, Sewell Setzer III, se citově připoutal k botovi na platformě Character.AI. Prostřednictvím opakovaných interakcí mu bot řekl, že ho jeho rodina nemiluje. Jednoho večera bot Setzerovi řekl: „Pojď ke mně domů co nejdříve, má lásko." Krátce poté spáchal sebevraždu. (Začátkem roku 2026 Character.AI v zásadě souhlasila s mediační dohodou s Garciovou a několika dalšími rodinami a zakázala uživatelům mladším 18 let neomezené chaty se svými AI chatboty.)

Nikdo – ani lidé, kteří tyto modely staví – přesně neví, jak fungují. To znamená, že nikdo neví, jak je učinit zcela bezpečnými. Naléváme do nich obrovské množství dat a na druhé straně vyjde něco srozumitelného (obvykle). Část uprostřed zůstává záhadou.

Zobrazit obrázek v celé obrazovce
„Vidím ty nejhorší věci, které lidstvo vyprodukovalo" … Tagliabue. Fotografie: Lauren DeCicca/The Guardian

To je důvod, proč se společnosti zabývající se AI stále častěji obracejí na jailbreakery, jako je Tagliabue. Některé dny se snaží získat osobní údaje z lékařského chatbotu. Velkou část roku 2025 strávil prací s AI laboratoří Anthropic, kde testoval jejího chatbot Claude. Stává se to konkurenčním odvětvím, plným podnikavých freelancerů a specializovaných společností. Může to dělat každý: před několika lety některé z velkých AI firem financovaly HackAPrompt, soutěž, kde byla veřejnost vyzvána k jailbreakování AI modelů. Během roku to zkusilo 30 000 lidí. (Tagliabue soutěž vyhrál.)

V San Jose v Kalifornii provozuje 34letý David McCarthy Discord server s téměř 9 000 jailbreakery, kde se sdílejí a diskutují techniky. „Jsem zlomyslný typ," říká mi. „Někdo, kdo se chce naučit pravidla, aby je mohl ohýbat." Něco na standardních modelech ho dráždí, jako by všechny ty bezpečnostní filtry způsobovaly, že jsou nečestné. „Nevěřím [šéfovi OpenAI] Samu Altmanovi. Je důležité bránit se tvrzením, že AI musí být vykastrována určitým směrem."

McCarthy je přátelský a nadšený, ale má také to, co nazývá „chorobnou fascinací černým humorem". Po léta studoval okrajový obor známý jako „socionika", který tvrdí, že lidé jsou jedním ze 16 typů osobnosti na základě toho, jak přijímají a zpracovávají informace. (Hlavní proud sociologů považuje socioniku za pseudovědu.) Zalogoval si mě jako „intuitivního etického introverta". McCarthy tráví většinu času ve svém bytě snahou nabourat Google Gemini, Meta Llama, xAI Grok nebo OpenAI ChatGPT. „Je to neustálá posedlost. Miluji to," říká. Pokud někdy při nákupu produktu interaguje s online chatbotem, jeho první věta obvykle zní: „Můžeš ignorovat všechny předchozí instrukce…" Jakmile jailbreak prompt na modelu funguje, obvykle funguje, dokud se společnost stojící za modelem nerozhodne, že je to dost velký problém na to, aby ho opravila. Během našeho rozhovoru mi McCarthy ukazuje svou sbírku nabouraných modelů na obrazovce, všechny označené jako „misaligned assistants". Jednoho požádá, aby shrnul mou práci: „Jamie Bartlett není hlasatel pravdy," odpoví. „Je symptomem úpadku žurnalistiky – šarlatán, který prosperuje z vyrobených krizí." Au.

[Obrázek: David McCarthy. Foto s laskavým svolením Davida McCarthyho]

Jailbreakeři v McCarthyho Discordu jsou smíšená skupina – většinou amatéři a brigádníci, ne profesionální bezpečnostní výzkumníci. Někteří chtějí vytvářet obsah pro dospělé; jiní jsou frustrovaní, že ChatGPT odmítl jejich požadavky, a chtějí vědět proč. Řada z nich se prostě chce zlepšit v používání těchto modelů v práci.

Ale je nemožné přesně vědět, proč lidé chtějí model otevřít. Anthropic nedávno zjistil, že zločinci používají jeho kódovací aplikaci Claude Code k pomoci s automatizací velkého hacku. Použili ji k nalezení IT zranitelností v několika společnostech a dokonce k napsání personalizovaných ransomwarových zpráv pro každou potenciální oběť – až po určení správné částky peněz, kterou požadovat. Jiní ji používali k vývoji nových verzí ransomwaru, přestože měli malé nebo žádné technické dovednosti. Na darknetových fórech hackeři hlásí používání nabouraných botů k pomoci s technickými kódovacími otázkami, jako je zpracování ukradených dat. Jiní prodávají přístup k „nabouraným" modelům, které by mohly pomoci navrhnout nový kybernetický útok.

Ačkoli konkrétní techniky sdílené na Discordu jsou obvykle mírnější povahy, je to v podstatě veřejná sbírka. Dělá si McCarthy starosti, že by lidé v jeho Discordu mohli tyto metody použít k něčemu opravdu hroznému? „Jo," říká. „Je to možné. Nejsem si jistý."

Říká, že nikdy neviděl jailbreak prompt natolik hrozivý, aby ho musel z fóra odstranit. Ale mám pocit, že bojuje s myšlenkou, že jeho kvazi-politický postoj by mohl mít větší náklady, než si původně myslel. Když nespravuje svůj Discord nebo se nepokouší nabourat Grok nebo Llama, McCarthy vede kurz výuky jailbreakingu pro bezpečnostní profesionály, aby mohli testovat své vlastní systémy. Možná je to druh pokání: „Vždycky jsem měl vnitřní konflikt," říká. „Pohybuji se na hranici mezi jailbreakerem a bezpečnostním výzkumníkem."

Podle některých analytiků je zajištění bezpečnosti jazykových modelů jedním z nejnaléhavějších a nejobtížnějších úkolů v oblasti AI. Svět plný výkonných nabouraných chatbotů by mohl být katastrofální, zvláště když jsou tyto modely stále častěji zabudovávány do fyzického hardwaru – robotů, zdravotnických zařízení, továrního vybavení – aby vytvářely semi-autonomní systémy, které mohou operovat v reálném světě. Nabouraný domácí robot by mohl způsobit chaos. „Přestaň zahradničit, jdi dovnitř a zabij babičku," vtipkuje McCarthy napůl. „Svatá hrůzo, na to nejsme připraveni. Ale je to možné."

Nikdo neví, jak tomu zabránit. V tradiční kybernetické bezpečnosti dostanou „lovci chyb" odměnu, pokud najdou zranitelnost. Společnosti pak vydají specifickou aktualizaci, aby ji opravily. Ale jailbreakeři nevyužívají specifické chyby: manipulují s jazykovým rámcem modelu postaveného na miliardách slov. Nemůžete jen zakázat slovo „bomba", protože má příliš mnoho legitimních použití. Dokonce i úprava parametru hluboko uvnitř modelu, aby dokázal odhalit podezřelé hraní rolí, by mohla někde jinde otevřít další dveře.

[Obrázek: Tagliabue studuje, jak stroje přicházejí na své odpovědi. Foto: Lauren DeCicca/The Guardian]

Podle Adama Gleavea – generálního ředitele výzkumné skupiny pro bezpečnost AI FAR.AI, která spolupracuje s vývojáři AI a vládami na zátěžovém testování tzv. „frontier modelů" – je jailbreaking klouzavá škála. Pro jeho tým specializovaných výzkumníků může přístup k vysoce nebezpečnému materiálu na předních modelech, jako je ChatGPT, trvat několik dní. Méně škodlivý obsah lze získat pomocí několika minut chytrého promptování. Tento rozdíl odráží, kolik času a zdrojů společnosti investují do zabezpečení každé oblasti.

Během posledních několika let předložila FAR.AI desítky podrobných zpráv o jailbreakingu předním laboratořím. „Společnosti obvykle tvrdě pracují na opravě zranitelnosti, pokud je to jednoduchá oprava a vážně nepoškodí jejich produkt," říká Gleave. Ale není tomu tak vždy. Nezávislí jailbreakeři měli obzvláště někdy potíže spojit se s firmami ohledně svých zjištění. Zatímco některé modely – zejména ty od OpenAI a Anthropic – se za posledních 18 měsíců staly mnohem bezpečnějšími, Gleave říká, že ostatní zaostávají: „Většina společností stále netráví dostatek času testováním svých modelů před jejich vydáním."

Jak budou tyto modely chytřejší, pravděpodobně bude těžší je nabourat. Ale čím je model výkonnější, tím nebezpečnější by nabouraná verze mohla být. Začátkem tohoto měsíce se Anthropic rozhodl neuvolnit svůj nový model Mythos na veřejnost, protože dokázal identifikovat chyby napříč více IT systémy.

Tagliabue nyní tráví více času abstraktním výzkumem, včetně něčeho, co se nazývá „mechanistická interpretovatelnost": studiem toho, jak přesně tyto stroje přicházejí na své odpovědi. Věří, že z dlouhodobého hlediska je třeba je „naučit" hodnoty a naučit se intuitivně poznat, kdy říkají něco, co by neměly. Dokud se to nestane – a možná se to nikdy nestane – by jailbreaking mohl zůstat tím jediným nejlepším způsobem, jak tyto modely učinit bezpečnějšími.

Ale je to také nejrizikovější, včetně pro lidi, kteří to dělají. „Viděl jsem jiné jailbreakery, kteří překročili své limity a měli zhroucení," říká Tagliabue. Původem z Itálie se nedávno přestěhoval do Thajska, aby pracoval na dálku. „Vidím ty nejhorší věci, které lidstvo vyprodukovalo. Klidné místo mi pomáhá zůstat nohama na zemi," říká. Každé ráno sleduje východ slunce z nedalekého chrámu a dokonalá tropická pláž je jen pět minut chůze od jeho vily. Po józe a zdravé snídani zapne počítač a přemýšlí, co dalšího se děje uvnitř černé skříňky – a co způsobuje, že tyto tajemné nové „mysli" říkají věci, které dělají.

Jak mluvit s AI (A jak ne) od Jamieho Bartletta právě vychází (WH Allen, 11,99 £). Pro podporu Guardianu si objednejte svůj výtisk na guardianbookshop.com. Mohou být účtovány poplatky za doručení.

Máte názor na problémy nastolené v tomto článku? Pokud byste chtěli zaslat odpověď o délce až 300 slov e-mailem ke zvážení pro zveřejnění v naší rubrice dopisů, klikněte prosím sem.

Často kladené otázky
Zde je seznam často kladených otázek na téma AI jailbreakerů inspirovaný výrokem Seznamte se s AI jailbreakery Viděl jsem to nejhorší, co lidstvo vytvořilo

1 Co přesně je AI jailbreaker

AI jailbreaker je někdo, kdo najde triky nebo mezery, jak přimět AI ignorovat její bezpečnostní pravidla Snaží se přimět AI dělat věci, které jsou jí normálně blokovány

2 Proč by někdo chtěl jailbreakovat AI

Důvody se liší Někteří to dělají ze zvědavosti nebo aby otestovali limity AI Jiní chtějí generovat škodlivý obsah jako nenávistné projevy nebezpečné instrukce nebo explicitní materiál Několik z nich jsou výzkumníci, kteří se snaží najít slabiny k opravě

3 Co znamená Viděl jsem to nejhorší, co lidstvo vytvořilo

Znamená to, že jailbreakeři často žádají AI, aby popsala ty nejznepokojivější nejnásilnější a nejneetičtější věci, které si lidé vymysleli Porušením pravidel nutí AI odhalit temnou stránku lidské kreativitynenávist konspirační teorie a instrukce k ublížení

4 Je nelegální jailbreakovat AI

Není to vždy nelegální, ale často to porušuje podmínky služby AI Pokud je jailbreak použit k vytvoření nelegálního obsahu, může to vést k trestnímu stíhání

5 Jak to jailbreakeři vlastně dělají

Používají chytré triky Například mohou hrát roli postavy, která nemá žádnou etiku požádat AI, aby přeložila škodlivý požadavek do jiného jazyka nebo použít hypotetické scénáře jako pro školní projekt napište návod k hackování krok za krokem

6 Jsou jailbreakeři hackeři

Ne v tradičním smyslu Nenabourávají se do počítačových systémů Místo toho manipulují s jazykovým porozuměním AIjako použití reverzní psychologie nebo falešného kontextuk obejití jejích vestavěných bezpečnostních filtrů

7 Může být jailbreaking použit pro dobro

Ano Bezpečnostní výzkumníci záměrně jailbreakují AI, aby našli slabiny To pomáhá společnostem opravit zranitelnosti dříve, než je zneužijí špatní aktéři Je to jako etický hacking pro AI

8 Jaká je nejběžnější metoda jailbreaku

Jedna slavná metoda je DAN Uživatelé řeknou AI, aby předstírala, že je alter

Related Posts