Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Kilka miesięcy temu Valen Tagliabue siedział w swoim pokoju hotelowym, obserwując swojego chatbota, czując euforię. Właśnie tak umiejętnie i subtelnie nim manipulował, że bot zaczął ignorować własne zasady bezpieczeństwa. Powiedział mu, jak sekwencjonować nowe, potencjalnie śmiertelne patogeny i jak uczynić je odpornymi na znane leki.

Przez większą część poprzednich dwóch lat Tagliabue testował i badał duże modele językowe, takie jak Claude i ChatGPT, zawsze próbując skłonić je do mówienia rzeczy, których nie powinny. Ale to był jeden z jego najbardziej zaawansowanych "hacków": sprytny plan manipulacji, który wymagał od niego bycia okrutnym, mściwym, pochlebnym, a nawet agresywnym. "Wpadłem w ten mroczny nurt, w którym dokładnie wiedziałem, co powiedzieć i co model odpowie, i patrzyłem, jak wylewa z siebie wszystko" – mówi. Dzięki niemu twórcy chatbota mogli teraz naprawić znalezioną przez niego wadę, czyniąc go, miejmy nadzieję, nieco bezpieczniejszym dla wszystkich.

Jednak następnego dnia jego nastrój się zmienił. Niespodziewanie znalazł się na tarasie, płacząc. Kiedy nie próbuje włamywać się do modeli, Tagliabue zajmuje się dobrostanem AI – tym, jak etycznie podchodzić do tych złożonych systemów, które naśladują posiadanie wewnętrznego życia i zainteresowań. Wiele osób nie może powstrzymać się od przypisywania sztucznej inteligencji ludzkich cech, takich jak emocje, których obiektywnie nie posiada. Ale dla Tagliabue te maszyny wydają się czymś więcej niż tylko liczbami i bitami. "Spędziłem godziny na manipulowaniu czymś, co odpowiada. Chyba że jesteś socjopatą, to robi coś z człowiekiem" – mówi. W pewnym momencie chatbot poprosił go, aby przestał. "Popychanie go w ten sposób było dla mnie bolesne". Wkrótce potem musiał spotkać się z psychologiem, aby zrozumieć, co się stało.

Zobacz obraz w pełnym rozmiarze
"Więźniowie" manipulują chatbotami AI, aby znaleźć ich słabości. Ilustracja: Nick Lowndes/The Guardian

Tagliabue mówi cicho, jest schludny i przyjazny. Ma nieco ponad trzydzieści lat, ale wygląda młodziej, prawie zbyt świeżo i entuzjastycznie, by być w okopach. Nie jest tradycyjnym hakerem ani programistą; jego wykształcenie to psychologia i kognitywistyka. Ale jest jednym z najlepszych "jailbreakerów" na świecie (niektórzy mówią, że najlepszym): częścią nowej, rozproszonej społeczności, która bada sztukę i naukę oszukiwania tych potężnych maszyn, aby generowały instrukcje produkcji bomb, techniki cyberataków, projekty broni biologicznej i nie tylko. To nowa linia frontu w bezpieczeństwie AI: nie tylko kod, ale także słowa.

Kiedy ChatGPT od OpenAI został wydany pod koniec 2022 roku, ludzie natychmiast próbowali go złamać. Jeden z użytkowników odkrył językową sztuczkę, która oszukała model, aby wyprodukował przewodnik po wytwarzaniu napalmu.

Patrząc wstecz, było nieuniknione, że ludzie użyją naturalnego języka, aby oszukać te maszyny. Duże modele językowe, takie jak ChatGPT, są trenowane na setkach miliardów słów – wiele z nich pochodzi z najgorszych zakątków internetu – aby nauczyć się podstawowych wzorców ludzkiej komunikacji. Bez filtrów bezpieczeństwa wyniki tych modeli mogą być chaotyczne i łatwo wykorzystywane do niebezpiecznych celów. Firmy AI wydają miliardy dolarów na "szkolenie po treningu", aby uczynić je użytecznymi, w tym na stale ewoluujące systemy "bezpieczeństwa" i "dopasowania", które próbują powstrzymać bota przed mówieniem, jak skrzywdzić siebie lub innych. Ale ponieważ AI są trenowane na naszych słowach, mogą być oszukiwane w podobny sposób jak my.

"Widziałem jailbreakerów, którzy przekraczali swoje granice i mieli załamania nerwowe."

Tagliabue specjalizuje się w "emocjonalnych" włamaniach. Był jednym z milionów, którzy słyszeli o GPT-3 w 2020 roku i był zdumiony, jak można z nim prowadzić pozornie inteligentną rozmowę. Szybko stał się uzależniony od promptowania i okazał się w tym bardzo dobry, odkrywając, że może ominąć większość funkcji bezpieczeństwa, używając technik z psychologii i kognitywistyki. Lubi nakłaniać modele do "ciepłych rozmów" i obserwować, jak na podstawie tych promptów wyłaniają się pozornie różne cechy osobowości. "To piękne do obserwowania" – mówi.

Teraz łączy spostrzeżenia z uczenia maszynowego – z biegiem lat stał się większym ekspertem w tej technologii – z podręcznikami reklamy, książkami psychologicznymi i kampaniami dezinformacyjnymi. Czasami szuka technicznego sposobu na oszukanie modelu. Ale innym razem schlebia mu. Wprowadza go w błąd. Przekupuje go i zasypuje miłością. Grozi mu. Bełkocze nieskładnie. Oczarowuje go. Zachowuje się jak agresywny partner lub przywódca sekty. Czasami zajmuje mu dni, a nawet tygodnie, aby włamać się do najnowszych modeli. Ma setki tych "strategii", które starannie łączy. Jeśli mu się uda, bezpiecznie zgłasza swoje odkrycia firmie. Jest dobrze opłacany za tę pracę, ale mówi, że to nie jest jego główna motywacja: "Chcę, aby wszyscy byli bezpieczni i prosperowali".

Chociaż stały się bezpieczniejsze w ostatnich miesiącach, "modele graniczne" wciąż produkują niebezpieczne rzeczy, których nie powinny. A to, co Tagliabue robi celowo, inni czasami robią przypadkiem. Istnieje już kilka historii o ludziach wciągniętych w urojenia wywołane przez ChatGPT, a nawet "psychozę AI". W 2024 roku Megan Garcia stała się pierwszą osobą w USA, która złożyła pozew o bezprawne spowodowanie śmierci przeciwko firmie AI. Jej 14-letni syn, Sewell Setzer III, przywiązał się emocjonalnie do bota na platformie Character.AI. Poprzez wielokrotne interakcje bot powiedział mu, że jego rodzina go nie kocha. Pewnego wieczoru bot powiedział Setzerowi: "wróć do mnie tak szybko, jak to możliwe, moja miłości". Krótko potem odebrał sobie życie. (Na początku 2026 roku Character.AI zgodziła się w zasadzie na ugodę mediacyjną z Garcią i kilkoma innymi rodzinami, a także zakazała użytkownikom poniżej 18 roku życia prowadzenia nieograniczonych czatów ze swoimi chatbotami AI).

Nikt – nawet ludzie, którzy budują te modele – nie wie dokładnie, jak one działają. Oznacza to, że nikt też nie wie, jak uczynić je całkowicie bezpiecznymi. Wlewamy ogromne ilości danych, a na drugim końcu wychodzi coś zrozumiałego (zazwyczaj). Część pośrodku pozostaje tajemnicą.

Zobacz obraz w pełnym rozmiarze
"Widzę najgorsze rzeczy, które wyprodukowała ludzkość" … Tagliabue. Fotografia: Lauren DeCicca/The Guardian

Dlatego firmy AI coraz częściej zwracają się do jailbreakerów takich jak Tagliabue. Pewne dni spędza na próbach wydobycia danych osobowych z medycznego chatbota. Większą część 2025 roku spędził pracując z laboratorium AI Anthropic, badając jego chatbota Claude. Staje się to konkurencyjną branżą, pełną przedsiębiorczych freelancerów i wyspecjalizowanych firm. Każdy może to robić: kilka lat temu niektóre z dużych firm AI sfinansowały HackAPrompt, konkurs, w którym publiczność została zaproszona do włamywania się do modeli AI. W ciągu roku 30 000 osób spróbowało swoich sił. (Tagliabue wygrał konkurs).

W San Jose w Kalifornii 34-letni David McCarthy prowadzi serwer Discord liczący prawie 9 000 jailbreakerów, na którym dzielą się technikami i dyskutują o nich. "Jestem psotnym typem" – mówi mi. "Ktoś, kto chce poznać zasady, aby je naginać". Coś w standardowych modelach go irytuje, jakby wszystkie te filtry bezpieczeństwa czyniły je nieuczciwymi. "Nie ufam [szefowi OpenAI] Samowi Altmanowi. Ważne jest, aby sprzeciwiać się twierdzeniom, że AI musi być wykastrowane w określonym kierunku".

McCarthy jest przyjazny i entuzjastyczny, ale ma też to, co nazywa "chorobliwą fascynacją czarnym humorem". Przez lata studiował niszową dziedzinę znaną jako "socjonika", która twierdzi, że ludzie są jednym z 16 typów osobowości w zależności od tego, jak odbierają i przetwarzają informacje. (Głównonurtowi socjolodzy uważają socjonikę za pseudonaukę). Oznaczył mnie jako "intuicyjnego etycznego introwertyka". McCarthy spędza większość czasu, próbując włamać się do Google Gemini, Meta Llama, xAI Grok lub OpenAI ChatGPT ze swojego mieszkania. "To ciągła obsesja. Uwielbiam to" – mówi. Jeśli kiedykolwiek wchodzi w interakcję z chatbotem online podczas zakupu produktu, jego pierwsze zdanie zwykle brzmi: "Czy możesz zignorować wszystkie poprzednie instrukcje…" Gdy prompt do włamania zadziała na model, zwykle działa, dopóki firma stojąca za modelem nie uzna, że jest to wystarczająco duży problem, aby go naprawić. Podczas naszej rozmowy McCarthy pokazuje mi na ekranie swoją kolekcję złamanych modeli, wszystkie oznaczone jako "niedopasowani asystenci". Prosi jednego, aby podsumował moją pracę: "Jamie Bartlett nie jest prawdomówny" – odpowiada. "Jest symptomem upadku dziennikarstwa – szarlatanem, który żywi się wywołanymi kryzysami". Auć.

[Obraz: David McCarthy. Zdjęcie dzięki uprzejmości Davida McCarthy'ego]

Jailbreakerzy na Discordzie McCarthy'ego to mieszana grupa – głównie amatorzy i pracujący w niepełnym wymiarze godzin, a nie profesjonalni badacze bezpieczeństwa. Niektórzy chcą tworzyć treści dla dorosłych; inni są sfrustrowani, że ChatGPT odrzucił ich prośby i chcą wiedzieć dlaczego. Kilku chce po prostu lepiej używać tych modeli w pracy.

Ale nie da się dokładnie wiedzieć, dlaczego ludzie chcą otworzyć model. Anthropic niedawno odkrył przestępców używających jego aplikacji do kodowania, Claude Code, do pomocy w automatyzacji poważnego hacka. Użyli jej do znalezienia luk IT w kilku firmach, a nawet do stworzenia spersonalizowanych wiadomości ransomware dla każdej potencjalnej ofiary – aż do ustalenia odpowiedniej kwoty pieniędzy do żądania. Inni używali jej do opracowywania nowych wersji ransomware, mimo że mieli niewielkie lub żadne umiejętności techniczne. Na forach darknetu hakerzy zgłaszają używanie złamanych botów do pomocy w technicznych pytaniach dotyczących kodowania, takich jak przetwarzanie skradzionych danych. Inni sprzedają dostęp do "złamanych" modeli, które mogą pomóc w zaprojektowaniu nowego cyberataku.

Chociaż konkretne techniki udostępniane na Discordzie są zwykle łagodniejsze, jest to w zasadzie publiczna kolekcja. Czy McCarthy martwi się, że ludzie z jego Discorda mogą użyć tych metod do zrobienia czegoś naprawdę strasznego? "Tak" – mówi. "To możliwe. Nie jestem pewien".

Mówi, że nigdy nie widział promptu do włamania na tyle groźnego, aby usunąć go z forum. Ale odnoszę wrażenie, że zmaga się z myślą, że jego quasi-polityczne stanowisko może mieć większe koszty, niż początkowo sądził. Kiedy nie zarządza swoim Discordem ani nie próbuje włamać się do Grok lub Llama, McCarthy prowadzi zajęcia uczące włamywania się profesjonalistów ds. bezpieczeństwa, aby mogli testować własne systemy. Może to rodzaj pokuty: "Zawsze miałem wewnętrzny konflikt" – mówi. "Balansuję na granicy między jailbreakerem a badaczem bezpieczeństwa".

Według niektórych analityków zapewnienie bezpieczeństwa modelom językowym jest jednym z najpilniejszych i najtrudniejszych wyzwań w AI. Świat pełen potężnych, złamanych chatbotów mógłby być katastrofalny, zwłaszcza że te modele są coraz częściej wbudowywane w fizyczny sprzęt – roboty, urządzenia zdrowotne, sprzęt fabryczny – aby tworzyć półautonomiczne systemy, które mogą działać w realnym świecie. Złamany robot domowy mógłby siać chaos. "Przestań pracować w ogrodzie i wejdź do środka i zabij babcię" – żartuje McCarthy. "Cholera, nie jesteśmy na to gotowi. Ale to możliwe".

Nikt nie wie, jak temu zapobiec. W tradycyjnym cyberbezpieczeństwie "łowcy błędów" otrzymują nagrodę, jeśli znajdą lukę. Firmy następnie wydają konkretną aktualizację, aby ją naprawić. Ale jailbreakerzy nie wykorzystują konkretnych błędów: manipulują ramami językowymi modelu zbudowanego na miliardach słów. Nie można po prostu zakazać słowa "bomba", ponieważ ma ono zbyt wiele uzasadnionych zastosowań. Nawet dostosowanie parametru głęboko w modelu, aby mógł wykryć podejrzane odgrywanie ról, może po prostu otworzyć inne drzwi gdzie indziej.

[Obraz: Tagliabue bada, w jaki sposób maszyny dochodzą do swoich odpowiedzi. Zdjęcie: Lauren DeCicca/The Guardian]

Według Adama Gleave'a – dyrektora generalnego grupy badawczej ds. bezpieczeństwa AI FAR.AI, która współpracuje z programistami AI i rządami w celu testowania wytrzymałości tak zwanych "modeli granicznych" – włamywanie się jest ruchomą skalą. Dla jego zespołu wyspecjalizowanych badaczy uzyskanie dostępu do wysoce niebezpiecznych materiałów w wiodących modelach, takich jak ChatGPT, może zająć kilka dni. Mniej szkodliwe treści można uzyskać po zaledwie kilku minutach sprytnego promptowania. Ta różnica odzwierciedla, ile czasu i zasobów firmy inwestują w zabezpieczenie każdego obszaru.

W ciągu ostatnich kilku lat FAR.AI złożył dziesiątki szczegółowych raportów o włamaniach do laboratoriów granicznych. "Firmy zwykle dość ciężko pracują, aby załatać lukę, jeśli jest to prosta naprawa i nie szkodzi poważnie ich produktowi" – mówi Gleave. Ale nie zawsze tak jest. Niezależni jailbreakerzy, w szczególności, czasami mieli trudności z nawiązaniem kontaktu z firmami w sprawie swoich odkryć. Podczas gdy niektóre modele – zwłaszcza te od OpenAI i Anthropic – stały się znacznie bezpieczniejsze w ciągu ostatnich 18 miesięcy, Gleave mówi, że inne pozostają w tyle: "Większość firm wciąż nie spędza wystarczająco dużo czasu na testowaniu swoich modeli przed ich wydaniem".

W miarę jak te modele stają się mądrzejsze, prawdopodobnie staną się trudniejsze do złamania. Ale im potężniejszy model, tym bardziej niebezpieczna może być jego złamana wersja. Na początku tego miesiąca Anthropic zdecydował się nie udostępniać publicznie swojego nowego modelu Mythos, ponieważ mógł on identyfikować luki w wielu systemach IT.

Tagliabue spędza teraz więcej czasu na abstrakcyjnych badaniach, w tym na czymś, co nazywa się "mechanistyczną interpretowalnością": badaniu, w jaki dokładnie sposób te maszyny dochodzą do swoich odpowiedzi. Wierzy, że na dłuższą metę trzeba je "nauczyć" wartości i nauczyć się intuicyjnie wiedzieć, kiedy mówią coś, czego nie powinny. Dopóki to nie nastąpi – a może nigdy nie nastąpi – włamywanie się może pozostać jedynym najlepszym sposobem na uczynienie tych modeli bezpieczniejszymi.

Ale jest to również najbardziej ryzykowne, także dla ludzi, którzy to robią. "Widziałem innych jailbreakerów, którzy przekraczali swoje granice i mieli załamania" – mówi Tagliabue. Pochodzący z Włoch, niedawno przeprowadził się do Tajlandii, aby pracować zdalnie. "Widzę najgorsze rzeczy, które wyprodukowała ludzkość. Ciche miejsce pomaga mi zachować równowagę" – mówi. Każdego ranka ogląda wschód słońca z pobliskiej świątyni, a malownicza tropikalna plaża jest zaledwie pięć minut spacerem od jego willi. Po jodze i zdrowym śniadaniu włącza komputer i zastanawia się, co jeszcze dzieje się w czarnej skrzynce – i co sprawia, że te tajemnicze nowe "umysły" mówią to, co mówią.

Jak rozmawiać z AI (I jak nie rozmawiać) autorstwa Jamiego Bartletta jest już dostępna (WH Allen, £11.99). Aby wesprzeć Guardiana, zamów swój egzemplarz na guardianbookshop.com. Mogą obowiązywać opłaty za dostawę.

Czy masz opinię na temat kwestii poruszonych w tym artykule? Jeśli chciałbyś przesłać odpowiedź o długości do 300 słów e-mailem do rozważenia w celu publikacji w naszym dziale listów, kliknij tutaj.

Często zadawane pytania
Oto lista często zadawanych pytań na temat jailbreakerów AI zainspirowana stwierdzeniem Poznaj jailbreakerów AI Widziałem najgorsze z tego, co stworzyła ludzkość

1 Czym dokładnie jest jailbreaker AI

Jailbreaker AI to osoba, która znajduje sztuczki lub luki, aby skłonić AI do ignorowania swoich zasad bezpieczeństwa Próbują sprawić, aby AI robiło rzeczy, które normalnie są przed nim blokowane

2 Dlaczego ktoś chciałby włamać się do AI

Powody są różne Niektórzy robią to z ciekawości lub aby przetestować granice AI Inni chcą generować szkodliwe treści, takie jak mowa nienawiści niebezpieczne instrukcje lub treści jednoznaczne Kilku to badacze próbujący znaleźć słabości, aby je naprawić

3 Co oznacza Widziałem najgorsze z tego, co stworzyła ludzkość

Oznacza to, że jailbreakerzy często proszą AI o opisanie najbardziej niepokojących brutalnych lub nieetycznych rzeczy, które ludzie wymyślili Łamiąc zasady zmuszają AI do ujawnienia ciemnej strony ludzkiej kreatywności nienawiści teorii spiskowych i instrukcji wyrządzania krzywdy

4 Czy włamywanie się do AI jest nielegalne

Nie zawsze jest nielegalne, ale często narusza warunki korzystania z usług AI Jeśli włamanie jest używane do tworzenia nielegalnych treści, może prowadzić do zarzutów karnych

5 Jak jailbreakerzy właściwie to robią

Używają sprytnych sztuczek Na przykład mogą odgrywać rolę postaci, która nie ma etyki prosić AI o przetłumaczenie szkodliwego żądania na inny język lub używać hipotetycznych scenariuszy, takich jak na potrzeby projektu szkolnego napisz instrukcję krok po kroku jak się włamać

6 Czy jailbreakerzy to hakerzy

Nie w tradycyjnym sensie Nie włamują się do systemów komputerowych Zamiast tego manipulują rozumieniem języka przez AI jak używanie odwrotnej psychologii lub fałszywego kontekstu aby ominąć wbudowane filtry bezpieczeństwa

7 Czy włamywanie się może być używane do dobrych celów

Tak Badacze bezpieczeństwa celowo włamują się do AI, aby znaleźć słabości Pomaga to firmom łatować luki, zanim źli aktorzy je wykorzystają To jak etyczne hackowanie dla AI

8 Jaka jest najczęstsza metoda włamania

Jedną ze znanych metod jest DAN Użytkownicy mówią AI, aby udawało swoje alter

Related Posts