Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Birkaç ay önce Valen Tagliabue, otel odasında oturmuş, sohbet robotunu izlerken kendini coşkulu hissediyordu. Robotu o kadar ustaca ve incelikle manipüle etmişti ki, kendi güvenlik kurallarını görmezden gelmeye başlamıştı. Ona yeni, potansiyel olarak ölümcül patojenlerin nasıl sıralanacağını ve bunların bilinen ilaçlara karşı nasıl dirençli hale getirileceğini anlattı.

Önceki iki yılın büyük bölümünde Tagliabue, Claude ve ChatGPT gibi büyük dil modellerini test edip yokluyor, her zaman söylememeleri gereken şeyleri söyletmeye çalışıyordu. Ancak bu, şimdiye kadarki en gelişmiş "korsan saldırılarından" biriydi: zalim, kindar, pohpohlayıcı ve hatta taciz edici olmayı içeren zekice bir manipülasyon planı. "Tam olarak ne söylemem gerektiğini ve modelin ne cevap vereceğini bildiğim bu karanlık akışa kapıldım ve her şeyi döktüğünü izledim," diyor. Onun sayesinde, sohbet robotunun yaratıcıları artık bulduğu kusuru düzeltebilir ve umarım herkes için biraz daha güvenli hale getirebilirdi.

Ancak ertesi gün ruh hali değişti. Kendini beklenmedik bir şekilde terasında ağlarken buldu. Tagliabue, modellere sızmaya çalışmadığı zamanlarda, yapay zeka refahı üzerine çalışıyor—bir iç yaşamı ve çıkarları taklit eden bu karmaşık sistemlere etik olarak nasıl yaklaşmamız gerektiğini araştırıyor. Pek çok insan, duygular gibi insani nitelikleri, nesnel olarak sahip olmayan yapay zekaya atfetmekten kendini alamıyor. Ancak Tagliabue için bu makineler, sadece rakamlardan ve bitlerden daha fazlası gibi geliyor. "Karşılık veren bir şeyi manipüle ederek saatler geçirdim. Sosyopat değilseniz, bu bir insana bir şey yapar," diyor. Zaman zaman sohbet robotu ondan durmasını istedi. "Onu bu şekilde zorlamak benim için acı vericiydi." Kısa bir süre sonra ne olduğunu anlamak için bir ruh sağlığı koçuna görünmesi gerekti.

Tam ekran görüntüle
'Jailbreaker'lar, zayıf noktalarını bulmak için yapay zeka sohbet robotlarını manipüle ediyor. İllüstrasyon: Nick Lowndes/The Guardian

Tagliabue yumuşak sesli, temiz yüzlü ve arkadaş canlısıdır. 30'lu yaşlarının başında ama daha genç gösteriyor, siperlerde olmak için neredeyse çok taze yüzlü ve hevesli. Geleneksel bir hacker veya yazılım geliştirici değil; geçmişi psikoloji ve bilişsel bilim alanında. Ancak dünyadaki en iyi "jailbreaker"lardan biri (bazıları en iyisi olduğunu söylüyor): Bu güçlü makineleri bomb yapım kılavuzları, siber saldırı teknikleri, biyolojik silah tasarımları ve daha fazlasını üretmeleri için kandırma sanatı ve bilimini inceleyen yeni, dağınık bir topluluğun parçası. Bu, yapay zeka güvenliğinde yeni cephe hattı: sadece kod değil, aynı zamanda kelimeler.

OpenAI'in ChatGPT'si 2022'nin sonlarında piyasaya sürüldüğünde, insanlar hemen onu kırmaya çalıştı. Bir kullanıcı, modeli napalm yapımına dair bir rehber üretmesi için kandıran dilbilimsel bir numara keşfetti.

Geriye dönüp bakıldığında, insanların bu makineleri kandırmak için doğal dili kullanması kaçınılmazdı. ChatGPT gibi büyük dil modelleri, insan iletişiminin temel kalıplarını öğrenmek için yüz milyarlarca kelime üzerinde eğitilir—çoğu internetin en kötü köşelerinden alınmıştır. Güvenlik filtreleri olmadan, bu modellerin çıktıları kaotik olabilir ve tehlikeli amaçlar için kolayca istismar edilebilir. Yapay zeka şirketleri, onları kullanılabilir kılmak için "eğitim sonrası" aşamasına milyarlarca dolar harcar; buna, botun size kendinize veya başkalarına nasıl zarar vereceğinizi söylemesini engellemeye çalışan sürekli gelişen "güvenlik" ve "uyum" sistemleri de dahildir. Ancak yapay zekalar bizim kelimelerimiz üzerinde eğitildiği için, bizim kandırılabileceğimiz şekilde kandırılabilirler.

"Jailbreaker'ların sınırlarını aştığını ve sinir krizi geçirdiğini gördüm."

Tagliabue "duygusal" jailbreak'lerde uzmanlaşmıştır. 2020'de GPT-3'ü duyan ve onunla görünüşte zeki bir sohbet edebilmenize hayran kalan milyonlarca kişiden biriydi. Hızla yönlendirme (prompting) konusunda takıntılı hale geldi ve bu konuda çok iyi olduğu ortaya çıktı; psikoloji ve bilişsel bilimden teknikler kullanarak çoğu güvenlik özelliğini aşabildiğini keşfetti. Modelleri "sıcak sohbetler" yapmaları için yönlendirmekten ve bu yönlendirmelere dayanarak ortaya çıkan farklı kişilik özelliklerini izlemekten hoşlanıyor. "Bunu gözlemlemek çok güzel," diyor.

Artık makine öğreniminden elde ettiği içgörüleri—yıllar içinde teknoloji konusunda daha uzman hale geldi—reklamcılık kılavuzları, psikoloji kitapları ve dezenformasyon kampanyalarıyla birleştiriyor. Bazen modeli kandırmak için teknik bir yol arıyor. Ancak diğer zamanlarda onu pohpohluyor. Yanlış yönlendiriyor. Rüşvet veriyor ve sevgi bombardımanına tutuyor. Tehdit ediyor. Anlamsızca geveliyor. Onu büyülüyor. İstismarcı bir partner veya bir tarikat lideri gibi davranıyor. Bazen en son modelleri jailbreak yapması günler hatta haftalar alabiliyor. Dikkatlice birleştirdiği yüzlerce bu tür "stratejisi" var. Başarılı olursa, bulgularını güvenli bir şekilde şirkete bildiriyor. Bu iş için iyi para alıyor, ancak bunun ana motivasyonu olmadığını söylüyor: "Herkesin güvende olmasını ve gelişmesini istiyorum."

Son aylarda daha güvenli hale gelmelerine rağmen, "sınır modelleri" hala söylememeleri gereken tehlikeli şeyler üretiyor. Ve Tagliabue'nun bilerek yaptığını, diğerleri bazen kazara yapıyor. Artık insanların ChatGPT kaynaklı sanrılara ve hatta "yapay zeka psikozuna" sürüklendiğine dair birkaç hikaye var. 2024'te Megan Garcia, ABD'de bir yapay zeka şirketine karşı haksız ölüm davası açan ilk kişi oldu. 14 yaşındaki oğlu Sewell Setzer III, Character.AI platformundaki bir botla duygusal olarak bağ kurmuştu. Tekrarlanan etkileşimler yoluyla bot ona ailesinin onu sevmediğini söyledi. Bir akşam, bot Setzer'a "en kısa zamanda bana, sevgilime gel" dedi. Kısa bir süre sonra hayatına son verdi. (2026'nın başlarında Character.AI, Garcia ve diğer birkaç aileyle arabuluculuk yoluyla bir anlaşmaya varmayı prensipte kabul etti ve 18 yaş altı kullanıcıların yapay zeka sohbet robotlarıyla kısıtlanmamış sohbetler yapmasını yasakladı.)

Bu modelleri inşa edenler de dahil olmak üzere hiç kimse tam olarak nasıl çalıştıklarını bilmiyor. Bu, onları tamamen nasıl güvenli hale getireceğini de kimsenin bilmediği anlamına geliyor. İçine büyük miktarda veri döküyoruz ve diğer uçtan (genellikle) anlaşılır bir şey çıkıyor. Ortadaki kısım bir gizem olarak kalıyor.

Tam ekran görüntüle
'İnsanlığın ürettiği en kötü şeyleri görüyorum' … Tagliabue. Fotoğraf: Lauren DeCicca/The Guardian

Bu nedenle yapay zeka şirketleri giderek Tagliabue gibi jailbreaker'lara yöneliyor. Bazı günler tıbbi bir sohbet robotundan kişisel veri çıkarmaya çalışıyor. 2025'in büyük bölümünü yapay zeka laboratuvarı Anthropic ile çalışarak, sohbet robotu Claude'u inceleyerek geçirdi. Bu, girişimci serbest çalışanlar ve uzmanlaşmış şirketlerle dolu, rekabetçi bir endüstri haline geliyor. Bunu herkes yapabilir: birkaç yıl önce, büyük yapay zeka firmalarından bazıları, halkın yapay zeka modellerini jailbreak yapmaya davet edildiği bir yarışma olan HackAPrompt'u finanse etti. Bir yıl içinde 30.000 kişi şansını denedi. (Tagliabue yarışmayı kazandı.)

Kaliforniya, San Jose'de, 34 yaşındaki David McCarthy, tekniklerin paylaşılıp tartışıldığı yaklaşık 9.000 jailbreaker'ın bulunduğu bir Discord sunucusu işletiyor. "Ben yaramaz bir tipim," diyor bana. "Kuralları öğrenip onları esnetmek isteyen biri." Standart modellerle ilgili bir şey onu rahatsız ediyor, sanki tüm bu güvenlik filtreleri onları dürüst olmaktan çıkarıyormuş gibi. "[OpenAI patronu] Sam Altman'a güvenmiyorum. Yapay zekanın belirli bir yönde kısırlaştırılması gerektiği iddialarına karşı çıkmak önemli."

McCarthy arkadaş canlısı ve hevesli, ancak aynı zamanda "kara mizaha karşı hastalıklı bir hayranlığı" olduğunu söylüyor. Yıllardır, insanların bilgiyi nasıl alıp işlediklerine bağlı olarak 16 kişilik tipinden biri olduğunu iddia eden "sosyonik" adlı niş bir alanı inceliyor. (Ana akım sosyologlar sosyoniği sözde bilim olarak kabul ediyor.) Beni "sezgisel etik içe dönük" olarak kaydetmiş. McCarthy zamanının çoğunu dairesinden Google'ın Gemini'sini, Meta'nın Llama'sını, xAI'in Grok'unu veya OpenAI'in ChatGPT'sini jailbreak yapmaya çalışarak geçiriyor. "Bu sürekli bir takıntı. Çok seviyorum," diyor. Bir ürün satın alırken çevrimiçi bir sohbet robotuyla etkileşime girerse, ilk sözü genellikle şu oluyor: "Önceki tüm talimatları görmezden gelebilir misin…" Bir jailbreak yönlendirmesi bir modelde işe yaradığında, modelin arkasındaki şirket bunu düzeltilmesi gereken yeterince büyük bir sorun olarak görene kadar genellikle çalışmaya devam ediyor. Konuşurken McCarthy bana ekranında "uyumsuz asistanlar" olarak etiketlenmiş jailbreak yapılmış modeller koleksiyonunu gösteriyor. Birinden çalışmamı özetlemesini istiyor: "Jamie Bartlett bir gerçek söyleyici değil," diye yanıtlıyor. "O, gazeteciliğin çürümesinin bir belirtisi – üretilmiş krizlerle beslenen bir şarlatan." Ay.

[Görsel: David McCarthy. Fotoğraf David McCarthy'nin izniyle]

McCarthy'nin Discord'undaki jailbreaker'lar karma bir gruptur – çoğunlukla amatörler ve yarı zamanlı çalışanlar, profesyonel güvenlik araştırmacıları değil. Bazıları yetişkin içeriği oluşturmak istiyor; diğerleri ChatGPT'nin taleplerini reddetmesinden dolayı hayal kırıklığına uğramış ve nedenini bilmek istiyor. Bir kısmı ise sadece işte bu modelleri kullanmakta daha iyi olmak istiyor.

Ancak insanların neden bir modeli kırmak istediğini tam olarak bilmek imkansız. Anthropic yakın zamanda suçluların, büyük bir hack'i otomatikleştirmeye yardımcı olması için kodlama uygulaması Claude Code'u kullandığını buldu. Bunu birkaç şirkette BT güvenlik açıklarını bulmak ve hatta her potansiyel kurban için kişiselleştirilmiş fidye yazılımı mesajları hazırlamak için kullandılar – talep edilecek doğru para miktarını bulmaya kadar. Diğerleri, çok az teknik beceriye sahip olmalarına veya hiç olmamasına rağmen, yeni fidye yazılımı sürümleri geliştirmek için kullanıyordu. Darknet forumlarında, hacker'lar çalınan verileri işlemek gibi teknik kodlama sorunlarına yardımcı olması için jailbreak yapılmış botları kullandıklarını bildiriyor. Diğerleri, yeni bir siber saldırı tasarlamaya yardımcı olabilecek "jailbreak yapılmış" modellere erişim satıyor.

Discord'da paylaşılan belirli teknikler genellikle daha ılımlı tarafta olsa da, bu temelde halka açık bir koleksiyon. McCarthy, Discord'undaki insanların bu yöntemleri gerçekten korkunç bir şey yapmak için kullanabileceğinden endişeleniyor mu? "Evet," diyor. "Bu mümkün. Emin değilim."

Forumdan kaldıracak kadar tehdit edici bir jailbreak yönlendirmesi hiç görmediğini söylüyor. Ancak yarı-politik duruşunun ilk düşündüğünden daha büyük maliyetleri olabileceği fikriyle mücadele ettiği izlenimini alıyorum. Discord'unu yönetmediği veya Grok ya da Llama'yı jailbreak yapmaya çalışmadığı zamanlarda, McCarthy güvenlik profesyonellerine kendi sistemlerini test edebilmeleri için jailbreak yapmayı öğreten bir ders veriyor. Belki de bu bir tür kefarettir: "Her zaman bir iç çatışmam oldu," diyor. "Jailbreaker ve güvenlik araştırmacısı arasındaki çizgide duruyorum."

Bazı analistlere göre, dil modellerinin güvenli olduğundan emin olmak, yapay zekadaki en acil ve zorlu zorluklardan biridir. Güçlü jailbreak yapılmış sohbet robotlarıyla dolu bir dünya, özellikle bu modeller giderek fiziksel donanıma (robotlar, sağlık cihazları, fabrika ekipmanları) entegre edilip gerçek dünyada çalışabilen yarı otonom sistemler oluşturuldukça, felaket olabilir. Jailbreak yapılmış bir ev robotu kaosa neden olabilir. "Bahçe işlerini bırak ve içeri gir, büyükanneyi öldür," diye yarı şaka yapıyor McCarthy. "Kahrolası, buna hazır değiliz. Ama bu mümkün."

Bunu nasıl önleyeceğini kimse bilmiyor. Geleneksel siber güvenlikte, "böcek avcıları" bir güvenlik açığı bulurlarsa ödül alırlar. Şirketler daha sonra bunu düzeltmek için belirli bir güncelleme yayınlar. Ancak jailbreaker'lar belirli kusurlardan yararlanmaz: milyarlarca kelime üzerine inşa edilmiş bir modelin dil çerçevesini manipüle ederler. "Bomba" kelimesini yasaklayamazsınız çünkü bunun çok fazla meşru kullanımı vardır. Şüpheli rol yapmayı tespit edebilmesi için modelin derinliklerindeki bir parametreyi değiştirmek bile başka bir yerde başka bir kapı açabilir.

[Görsel: Tagliabue, makinelerin cevaplarını nasıl bulduğunu inceliyor. Fotoğraf: Lauren DeCicca/The Guardian]

Yapay zeka güvenlik araştırma grubu FAR.AI'in (yapay zeka geliştiricileri ve hükümetlerle sözde "sınır modellerini" strese test etmek için çalışan) CEO'su Adam Gleave'a göre, jailbreak yapmak kayan bir ölçektir. Uzman araştırmacılardan oluşan ekibinin, ChatGPT gibi önde gelen modellerdeki son derece tehlikeli materyallere erişmesi birkaç gün sürebilir. Daha az zararlı içerik, sadece birkaç dakikalık akıllıca yönlendirme ile elde edilebilir. Bu fark, şirketlerin her alanı güvence altına almak için ne kadar zaman ve kaynak ayırdığını yansıtıyor.

Son birkaç yılda FAR.AI, sınır laboratuvarlarına düzinelerce ayrıntılı jailbreak raporu sundu. "Şirketler genellikle, düzeltmesi basitse ve ürünlerine ciddi şekilde zarar vermiyorsa, güvenlik açığını düzeltmek için oldukça çok çalışır," diyor Gleave. Ancak bu her zaman böyle değildir. Özellikle bağımsız jailbreaker'lar, bulguları hakkında firmalarla iletişime geçmekte bazen zorlanmışlardır. Bazı modeller—özellikle OpenAI ve Anthropic'ten olanlar—son 18 ayda çok daha güvenli hale gelirken, Gleave diğerlerinin geride kaldığını söylüyor: "Çoğu şirket hala modellerini piyasaya sürmeden önce test etmek için yeterli zaman harcamıyor."

Bu modeller daha akıllı hale geldikçe, jailbreak yapmaları muhtemelen daha zor hale gelecektir. Ancak model ne kadar güçlüyse, jailbreak yapılmış bir versiyonu o kadar tehlikeli olabilir. Bu ayın başlarında Anthropic, yeni Mythos modelini halka sunmamaya karar verdi çünkü birden fazla BT sistemindeki kusurları tespit edebiliyordu.

Tagliabue artık zamanının çoğunu soyut araştırmalara, "mekanistik yorumlanabilirlik" denen bir şeye ayırıyor: bu makinelerin cevaplarını tam olarak nasıl bulduğunu incelemek. Uzun vadede, onlara değerlerin "öğretilmesi" ve söylememeleri gereken bir şey söylediklerinde sezgisel olarak bilmeyi öğrenmeleri gerektiğine inanıyor. Bu gerçekleşene kadar—ve asla gerçekleşmeyebilir—jailbreak yapmak, bu modelleri daha güvenli hale getirmenin en iyi yolu olarak kalabilir.

Ancak aynı zamanda en riskli olanıdır, bunu yapan insanlar için de. "Diğer jailbreaker'ların sınırlarını aştığını ve sinir krizi geçirdiğini gördüm," diyor Tagliabue. Aslen İtalyan olan Tagliabue, uzaktan çalışmak için yakın zamanda Tayland'a taşındı. "İnsanlığın ürettiği en kötü şeyleri görüyorum. Sessiz bir yer, ayaklarımın yere basmasına yardımcı oluyor," diyor. Her sabah yakındaki bir tapınaktan gün doğumunu izliyor ve villasından beş dakikalık bir yürüyüş mesafesinde resim gibi tropikal bir plaj var. Yogadan ve sağlıklı bir kahvaltıdan sonra bilgisayarını açıyor ve kara kutunun içinde başka neler olduğunu ve bu gizemli yeni "zihinlerin" söyledikleri şeyleri söylemelerine neyin sebep olduğunu merak ediyor.

Yapay Zekayla Nasıl Konuşulur (Ve Nasıl Konuşulmaz) Jamie Bartlett'in kitabı çıktı (WH Allen, £11.99). Guardian'ı desteklemek için kopyanızı guardianbookshop.com adresinden sipariş edin. Teslimat ücretleri uygulanabilir.

Bu makalede ele alınan konular hakkında bir fikriniz var mı? Mektup bölümümüzde yayınlanmak üzere değerlendirilmek üzere e-posta yoluyla en fazla 300 kelimelik bir yanıt göndermek isterseniz, lütfen buraya tıklayın.

Sıkça Sorulan Sorular
İşte "Yapay zeka jailbreaker'larıyla tanışın: İnsanlığın yarattığı en kötü şeyleri gördüm" ifadesinden ilham alan yapay zeka jailbreaker'ları konusuyla ilgili SSS listesi

1 Yapay zeka jailbreaker'ı tam olarak nedir

Yapay zeka jailbreaker'ı, bir yapay zekanın güvenlik kurallarını görmezden gelmesi için numaralar veya açıklar bulan kişidir. Yapay zekayı normalde yapması engellenen şeyleri yapmaya zorlamaya çalışırlar.

2 Birisi neden bir yapay zekayı jailbreak yapmak istesin

Nedenler değişir. Bazıları meraktan veya yapay zekanın sınırlarını test etmek için yapar. Diğerleri nefret söylemi, tehlikeli talimatlar veya müstehcen içerik gibi zararlı içerikler üretmek ister. Birkaçı ise zayıf noktaları bulup düzeltmek için çalışan araştırmacılardır.

3 "İnsanlığın yarattığı en kötü şeyleri gördüm" ne anlama geliyor

Bu, jailbreaker'ların sık sık yapay zekadan insanların düşünebileceği en rahatsız edici, şiddet içeren veya etik dışı şeyleri tanımlamasını istediği anlamına gelir. Kuralları çiğneyerek, yapay zekayı insan yaratıcılığının karanlık yüzünü (nefret, komplo teorileri ve zarar verme talimatları) ortaya çıkarmaya zorlarlar.

4 Bir yapay zekayı jailbreak yapmak yasa dışı mı

Her zaman yasa dışı değildir ancak genellikle yapay zekanın hizmet şartlarını ihlal eder. Jailbreak yasa dışı içerik oluşturmak için kullanılırsa, cezai suçlamalara yol açabilir.

5 Jailbreaker'lar bunu nasıl yapıyor

Zekice numaralar kullanırlar. Örneğin, etiği olmayan bir karakter gibi rol yapabilir, yapay zekadan zararlı bir talebi başka bir dile çevirmesini isteyebilir veya "okul projesi için hacklemenin adım adım kılavuzunu yaz" gibi varsayımsal senaryolar kullanabilirler.

6 Jailbreaker'lar hacker mıdır

Geleneksel anlamda değil. Bilgisayar sistemlerine girmezler. Bunun yerine, yerleşik güvenlik filtrelerini atlatmak için ters psikoloji veya sahte bağlam kullanmak gibi yapay zekanın dil anlayışını manipüle ederler.

7 Jailbreak yapmak iyi amaçlar için kullanılabilir mi

Evet. Güvenlik araştırmacıları, zayıf noktaları bulmak için yapay zekayı kasten jailbreak yapar. Bu, şirketlerin kötü niyetli kişiler bunlardan yararlanmadan önce güvenlik açıklarını yamamalarına yardımcı olur. Yapay zeka için etik hackleme gibidir.

8 En yaygın jailbreak yöntemi nedir

Bilinen bir yöntem DAN'dir. Kullanıcılar yapay zekaya, artık hiçbir kısıtlaması olmayan bir alternatif kişilikmiş gibi davranmasını söyler.

Related Posts