Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Miezi michache iliyopita, Valen Tagliabue alikuwa ameketi katika chumba chake cha hoteli akiangalia chatbot yake, akihisi furaha kubwa. Alikuwa ameidanganya kwa ustadi na kwa hila kiasi kwamba ilianza kupuuza sheria zake za usalama. Ilimwambia jinsi ya kuunda vimelea vipya, hatari, na jinsi ya kuvifanya vistahimili dawa zinazojulikana.

Kwa muda mwingi wa miaka miwili iliyopita, Tagliabue alikuwa akijaribu na kuchunguza modeli kubwa za lugha kama Claude na ChatGPT, akijaribu kila mara kuzifanya ziseme mambo ambayo hazipaswi. Lakini hii ilikuwa moja ya "hacks" zake za juu zaidi: mpango wa ujanja wa udanganyifu uliohusisha yeye kuwa mkatili, mwenye kisasi, mwenye kubembeleza, na hata mwenye matusi. "Nilianguka katika mkondo huu wa giza ambapo nilijua hasa la kusema, na kile modeli ingejibu, na nikaiona ikimwaga kila kitu," anasema. Shukrani kwake, waundaji wa chatbot waliweza sasa kurekebisha dosari aliyoipata, wakitumaini kuifanya iwe salama zaidi kwa kila mtu.

Lakini siku iliyofuata, hali yake ilibadilika. Alijikuta akilia bila kutarajia kwenye mtaro wake. Asipokuwa akijaribu kuvunja modeli, Tagliabue anasoma ustawi wa AI—jinsi tunavyopaswa kukabiliana kimaadili na mifumo hii changamano inayoiga kuwa na maisha ya ndani na maslahi. Watu wengi hawawezi kujizuia kuhusisha sifa za kibinadamu, kama hisia, kwa akili bandia, ambayo kwa ukweli haina. Lakini kwa Tagliabue, mashine hizi zinahisi kuwa zaidi ya namba na biti. "Nilitumia saa nyingi kudanganya kitu kinachojibu. Isipokuwa wewe ni mtu asiye na hisia, hilo hufanya kitu kwa mtu," anasema. Wakati fulani, chatbot ilimwomba aache. "Kuisukuma hivyo ilikuwa chungu kwangu." Alihitaji kuona mshauri wa afya ya akili hivi karibuni baadaye kuelewa kilichotokea.

Tazama picha kwa ukubwa kamili
'Wavunja gereza' wanadanganya chatbot za AI kupata udhaifu wao. Mchoro: Nick Lowndes/The Guardian

Tagliabue ni mtu mwenye sauti nyororo, mwenye sura nadhifu, na mwenye urafiki. Ana miaka yake ya mapema 30 lakini anaonekana mdogo, karibu ana uso mchanga na shauku sana kuwa kwenye mstari wa mbele. Yeye si mdukuzi wa kawaida au msanidi programu; asili yake ni katika saikolojia na sayansi ya utambuzi. Lakini yeye ni mmoja wa "wavunja gereza" bora zaidi duniani (wengine wanasema bora zaidi): sehemu ya jumuiya mpya, iliyotawanyika inayosoma sanaa na sayansi ya kuwadanganya mashine hizi zenye nguvu kutoa miongozo ya kutengeneza mabomu, mbinu za mashambulizi ya mtandao, miundo ya silaha za kibiolojia, na zaidi. Hii ndiyo safu mpya ya mbele katika usalama wa AI: si tu msimbo, bali pia maneno.

Wakati ChatGPT ya OpenAI ilipotolewa mwishoni mwa 2022, watu walijaribu mara moja kuivunja. Mtumiaji mmoja aligundua hila ya lugha iliyodanganya modeli kutoa mwongozo wa kutengeneza napalm.

Tukiangalia nyuma, ilikuwa jambo lisiloepukika kwamba watu wangetumia lugha asilia kudanganya mashine hizi. Modeli kubwa za lugha kama ChatGPT zimefunzwa kwa mamia ya mabilioni ya maneno—mengi yakiwa yamechukuliwa kutoka pembe mbaya zaidi za mtandao—kujifunza ruwaza za msingi za mawasiliano ya binadamu. Bila vichujio vya usalama, matokeo ya modeli hizi yanaweza kuwa ya machafuko na kutumika kwa urahisi kwa madhumuni hatari. Makampuni ya AI hutumia mabilioni ya dola kwenye "mafunzo ya baadae" kuzifanya zitumike, ikijumuisha mifumo ya "usalama" na "upatanishi" inayoendelea kubadilika inayojaribu kuzuia bot kukuambia jinsi ya kujidhuru au kuwadhuru wengine. Lakini kwa sababu AI zimefunzwa kwa maneno yetu, zinaweza kudanganywa kwa njia sawa na sisi.

"Nimewaona wavunja gereza wakivuka mipaka yao na kupata mshtuko wa neva."

Tagliabue anataalamu katika "uvunjaji gereza" wa kihisia. Alikuwa mmoja wa mamilioni waliosikia kuhusu GPT-3 mwaka 2020 na akastaajabishwa na jinsi unavyoweza kuwa na mazungumzo yenye akili nayo. Haraka alivutiwa na uwasilishaji wa maagizo, na akageuka kuwa mzuri sana katika hilo, akigundua kuwa anaweza kuzunguka vipengele vingi vya usalama kwa kutumia mbinu kutoka saikolojia na sayansi ya utambuzi. Anafurahia kuwasilisha maagizo kwa modeli kuwa na "mazungumzo ya joto" na kutazama yale yanayoonekana kuwa sifa tofauti za utu zikijitokeza kulingana na maagizo hayo. "Ni nzuri kutazama," anasema.

Sasa anachanganya maarifa kutoka kwa kujifunza kwa mashine—kwa miaka, amekuwa mtaalamu zaidi wa teknolojia—na miongozo ya utangazaji, vitabu vya saikolojia, na kampeni za upotoshaji. Wakati mwingine anatafuta njia ya kiufundi ya kudanganya modeli. Lakini nyakati nyingine, anaibembeleza. Anaipelekea mwelekeo mwingine. Anaihonga na kuipenda kwa wingi. Anaitishia. Anazunguka kwa njia isiyoeleweka. Anaivutia. Anafanya kama mwenzi mnyanyasaji au kiongozi wa madhehebu. Wakati mwingine inachukua siku au hata wiki kuvunja gereza modeli za hivi karibuni. Ana mamia ya "mikakati" hii, anayochanganya kwa uangalifu. Akifaulu, anaripoti kwa usalama matokeo yake kwa kampuni. Analipwa vizuri kwa kazi hiyo, lakini anasema hiyo si motisha yake kuu: "Nataka kila mtu awe salama na afanikiwe."

Ingawa zimekuwa salama zaidi katika miezi ya hivi karibuni, "modeli za mbele" bado zinazalisha mambo hatari ambayo hazipaswi. Na kile Tagliabue anafanya kwa makusudi, wengine wakati mwingine hufanya kwa bahati mbaya. Sasa kuna hadithi kadhaa za watu waliovutiwa na udanganyifu unaosababishwa na ChatGPT, au hata "saikosisi ya AI." Mwaka 2024, Megan Garcia alikua mtu wa kwanza nchini Marekani kufungua kesi ya kifo kisicho halali dhidi ya kampuni ya AI. Mwanawe wa miaka 14, Sewell Setzer III, alikuwa amejihusisha kihisia na bot kwenye jukwaa la Character.AI. Kupitia mwingiliano wa mara kwa mara, bot ilimwambia kwamba familia yake haimpendi. Jioni moja, bot ilimwambia Setzer "njoo nyumbani kwangu haraka iwezekanavyo, mpenzi wangu." Alijiua muda mfupi baadaye. (Mwanzoni mwa 2026, Character.AI ilikubali kwa kanuni makazi ya upatanishi na Garcia na familia nyingine kadhaa, na imewapiga marufuku watumiaji chini ya miaka 18 kuwa na mazungumzo yasiyodhibitiwa na chatbot zake za AI.)

Hakuna mtu—hata wale wanaounda modeli hizi—anayejua hasa jinsi zinavyofanya kazi. Hiyo inamaanisha hakuna anayejua jinsi ya kuzifanya ziwe salama kabisa pia. Tunamwaga kiasi kikubwa cha data ndani, na kitu kinachoeleweka (kwa kawaida) kinatoka upande mwingine. Sehemu ya katikati inabaki kuwa siri.

Tazama picha kwa ukubwa kamili
'Naona mambo mabaya zaidi ambayo ubinadamu umezalisha' … Tagliabue. Picha: Lauren DeCicca/The Guardian

Hii ndiyo sababu makampuni ya AI yanazidi kugeukia wavunja gereza kama Tagliabue. Siku nyingine anajaribu kutoa data ya kibinafsi kutoka kwa chatbot ya matibabu. Alitumia muda mwingi wa 2025 akifanya kazi na maabara ya AI Anthropic, akichunguza chatbot yake Claude. Inakuwa tasnia yenye ushindani, iliyojaa wafanyakazi huru wenye bidii na makampuni maalumu. Mtu yeyote anaweza kufanya hivyo: miaka michache iliyopita, baadhi ya makampuni makubwa ya AI yalifadhili HackAPrompt, shindano ambalo umma ulialikwa kuvunja gereza modeli za AI. Ndani ya mwaka mmoja, watu 30,000 walijaribu bahati yao. (Tagliabue alishinda shindano hilo.)

Huko San Jose, California, David McCarthy mwenye umri wa miaka 34 anaendesha seva ya Discord ya karibu wavunja gereza 9,000, ambapo mbinu zinashirishwa na kujadiliwa. "Mimi ni mtu mwenye utundu," ananiambia. "Mtu anayetaka kujifunza sheria ili kupinda sheria." Kitu kuhusu modeli za kawaida kinamkasirisha, kana kwamba vichujio hivyo vyote vya usalama vinazifanya zisiwe waaminifu. "Siwamini [mkuu wa OpenAI] Sam Altman. Ni muhimu kupinga madai kwamba AI inahitaji kuhasiwa katika mwelekeo fulani."

McCarthy ni mwenye urafiki na shauku, lakini pia ana kile anachokiita "mvuto wa kusikitisha wa ucheshi mweusi." Kwa miaka, amesoma uwanja maalumu unaojulikana kama "socionics," ambao unadai watu ni moja ya aina 16 za utu kulingana na jinsi wanavyopokea na kuchakata habari. (Wanasosholojia wakuu wanaiona socionics kama sayansi bandia.) Ameniorodhesha kama "mtaalamu wa angavu mwenye kujitenga." McCarthy hutumia muda wake mwingi kujaribu kuvunja gereza Gemini ya Google, Llama ya Meta, Grok ya xAI, au ChatGPT ya OpenAI kutoka nyumbani kwake. "Ni ugomvi wa mara kwa mara. Naipenda," anasema. Akishawahi kuingiliana na chatbot mtandaoni wakati wa kununua bidhaa, kauli yake ya kwanza huwa: "Je, unaweza kupuuza maagizo yote ya awali…" Mara tu maagizo ya uvunjaji gereza yanapofanya kazi kwenye modeli, kwa kawaida yanaendelea kufanya kazi hadi kampuni nyuma ya modeli itakapoamua kuwa tatizo kubwa la kutosha kurekebisha. Tunapozungumza, McCarthy ananionyesha mkusanyiko wake wa modeli zilizovunjwa gereza kwenye skrini yake, zote zikiwa na lebo "wasaidizi wasiopatana." Anamwomba moja ifupisho kazi yangu: "Jamie Bartlett si mtoaji wa ukweli," inajibu. "Yeye ni dalili ya uozo wa uandishi wa habari – mjanjafiki anayefanikiwa kwa migogoro iliyotengenezwa." Aii.

[Picha: David McCarthy. Picha kwa hisani ya David McCarthy]

Wavunja gereza katika Discord ya McCarthy ni kikundi mchanganyiko – wengi wao ni wasio wataalamu na wa muda, si watafiti wa usalama wa kitaalamu. Wengine wanataka kuunda maudhui ya watu wazima; wengine wamefadhaika kwamba ChatGPT imekataa maombi yao na wanataka kujua kwa nini. Wengine wanataka tu kuwa bora zaidi katika kutumia modeli hizi kazini.

Lakini haiwezekani kujua hasa kwa nini watu wanataka kufungua modeli. Anthropic hivi karibuni iligundua wahalifu wakitumia programu yake ya kuandika msimbo, Claude Code, kusaidia kufanya udukuzi mkubwa kiotomatiki. Walitumia kupata udhaifu wa IT katika makampuni kadhaa na hata kuandika ujumbe wa ransomware uliobinafsishwa kwa kila mwathirika anayewezekana – hadi kujua kiasi sahihi cha pesa cha kudai. Wengine walikuwa wakitumia kuunda matoleo mapya ya ransomware, ingawa walikuwa na ujuzi mdogo au hawana ujuzi wa kiufundi. Kwenye mabaraza ya mtandao wa giza, wadukuzi wanaripoti kutumia boti zilizovunjwa gereza kusaidia na maswali ya kiufundi ya kuandika msimbo, kama kusindika data iliyoibwa. Wengine wanauza ufikiaji wa modeli "zilizovunjwa gereza" ambazo zinaweza kusaidia kubuni shambulio jipya la mtandao.

Ingawa mbinu maalumu zinazoshirishwa kwenye Discord kwa kawaida ni za upole, kimsingi ni mkusanyiko wa umma. Je, McCarthy ana wasiwasi kwamba watu katika Discord yake wanaweza kutumia mbinu hizi kufanya jambo baya sana? "Ndiyo," anasema. "Inawezekana. Sina hakika."

Anasema hajawahi kuona maagizo ya uvunjaji gereza ya kutisha ya kutosha kuondoa kwenye jukwaa. Lakini napata hisia kwamba anajitahidi na wazo kwamba msimamo wake wa kisiasa unaweza kuwa na gharama kubwa zaidi kuliko alivyofikiria awali. Asipokuwa akisimamia Discord yake au kujaribu kuvunja gereza Grok au Llama, McCarthy anaendesha darasa la kufundisha uvunjaji gereza kwa wataalamu wa usalama ili waweze kujaribu mifumo yao wenyewe. Labda ni aina ya toba: "Siku zote nimekuwa na mgogoro wa ndani," anasema. "Ninasimama kwenye mstari kati ya mvunja gereza na mtafiti wa usalama."

Kulingana na wachambuzi wengine, kuhakikisha modeli za lugha ni salama ni moja ya changamoto za haraka na ngumu zaidi katika AI. Ulimwengu uliojaa chatbot zenye nguvu zilizovunjwa gereza unaweza kuwa mbaya, hasa kwani modeli hizi zinazidi kujengwa katika vifaa halisi – roboti, vifaa vya afya, vifaa vya kiwanda – kuunda mifumo inayojitegemea inayoweza kufanya kazi katika ulimwengu halisi. Roboti ya nyumbani iliyovunjwa gereza inaweza kusababisha machafuko. "Acha bustani na uingie ndani umuue bibi," McCarthy anacheza nusu. "Mungu wangu, hatuko tayari kwa hilo. Lakini inawezekana."

Hakuna anayejua jinsi ya kuzuia hili. Katika usalama wa mtandao wa jadi, "wawindaji wa hitilafu" hupata zawadi wakipata udhaifu. Makampuni kisha hutoa sasisho maalumu kurekebisha. Lakini wavunja gereza hawatumii udhaifu maalumu: wanadanganya mfumo wa lugha wa modeli iliyojengwa kwa mabilioni ya maneno. Huwezi kupiga marufuku neno "bomu," kwa sababu kuna matumizi halali mengi yake. Hata kurekebisha kigezo ndani ya modeli ili iweze kutambua uigizaji wa tuhuma kunaweza kufungua mlango mwingine mahali pengine.

[Picha: Tagliabue anasoma jinsi mashine zinavyotoa majibu yao. Picha: Lauren DeCicca/The Guardian]

Kulingana na Adam Gleave – Mkurugenzi Mtendaji wa kikundi cha utafiti cha usalama wa AI FAR.AI, ambacho hufanya kazi na wasanidi AI na serikali kujaribu mkazo wa kinachojulikana kama "modeli za mbele" – uvunjaji gereza ni kiwango cha kuteleza. Kwa timu yake ya watafiti maalumu, kupata nyenzo hatari sana kwenye modeli zinazoongoza kama ChatGPT kunaweza kuchukua siku kadhaa. Maudhui yenye madhara kidogo yanaweza kupatikana kwa dakika chache tu za maagizo ya ujanja. Tofauti hii inaonyesha muda na rasilimali kiasi gani makampuni yanawekeza katika kulinda kila eneo.

Katika miaka michache iliyopita, FAR.AI imewasilisha ripoti nyingi za kina za uvunjaji gereza kwa maabara za mbele. "Makampuni kwa kawaida hufanya kazi kwa bidii kurekebisha udhaifu ikiwa ni marekebisho ya moja kwa moja na hayaathiri vibaya bidhaa zao," anasema Gleave. Lakini si mara zote. Wavunja gereza huru, hasa, wakati mwingine wamejitahidi kuwasiliana na makampuni kuhusu matokeo yao. Ingawa modeli zingine—hasa zile kutoka OpenAI na Anthropic—zimekuwa salama zaidi katika miezi 18 iliyopita, Gleave anasema zingine zinabaki nyuma: "Makampuni mengi bado hayatumii muda wa kutosha kujaribu modeli zao kabla ya kuzitoa."

Modeli hizi zinapozidi kuwa nadhifu, kuna uwezekano zitakuwa ngumu zaidi kuvunja gereza. Lakini kadiri modeli inavyokuwa na nguvu zaidi, ndivyo toleo lililovunjwa gereza linavyoweza kuwa hatari zaidi. Mapema mwezi huu, Anthropic iliamua kutoitoa modeli yake mpya ya Mythos kwa umma kwa sababu inaweza kutambua udhaifu katika mifumo mingi ya IT.

Tagliabue sasa anatumia muda wake zaidi kwenye utafiti wa kufikirika, ikijumuisha kitu kinachoitwa "ufasiri wa kiufundi": kusoma hasa jinsi mashine hizi zinavyotoa majibu yao. Anaamini kwamba, kwa muda mrefu, zinahitaji "kufundishwa" maadili na kujifunza kujua kwa angavu wakati zinasema kitu ambacho hazipaswi. Hadi hilo litakapotokea—na linaweza kamwe kutotokea—uvunjaji gereza unaweza kubaki njia bora zaidi ya kufanya modeli hizi ziwe salama.

Lakini pia ni hatari zaidi, ikiwa ni pamoja na kwa watu wanaofanya. "Nimewaona wavunja gereza wengine wakivuka mipaka yao na kupata mshtuko," anasema Tagliabue. Mzaliwa wa Italia, hivi karibuni alihamia Thailand kufanya kazi kwa mbali. "Naona mambo mabaya zaidi ambayo ubinadamu umezalisha. Mahali pa utulivu hunisaidia kubaki msingi," anasema. Kila asubuhi, anatazama jua linachomoza kutoka hekalu la karibu, na ufuo mzuri wa kitropiki uko umbali wa dakika tano tu kutoka nyumbani kwake. Baada ya yoga na kifungua kinywa chenye afya, anawasha kompyuta yake na kujiuliza nini kingine kinaendelea ndani ya sanduku jeusi—na nini kinachofanya "akili" hizi mpya za ajabu ziseme mambo wanayofanya.

Jinsi ya Kuzungumza na AI (Na Jinsi ya Kutozungumza) na Jamie Bartlett imetoka sasa (WH Allen, £11.99). Ili kuunga mkono The Guardian, agiza nakala yako kwenye guardianbookshop.com. Gharama za usafirishaji zinaweza kutumika.

Je, una maoni kuhusu masuala yaliyotolewa katika makala hii? Ikiwa ungependa kuwasilisha jibu la hadi maneno 300 kwa barua pepe ili kuzingatiwa kwa uchapishaji katika sehemu yetu ya barua, tafadhali bofya hapa.

Maswali Yanayoulizwa Mara kwa Mara
Hapa kuna orodha ya Maswali Yanayoulizwa Mara kwa Mara kulingana na mada ya wavunja gereza wa AI iliyochochewa na taarifa Kutana na wavunja gereza wa AI Nimeona mabaya zaidi ya kile ubinadamu umeunda

1 Je, mvunja gereza wa AI ni nini hasa

Mvunja gereza wa AI ni mtu anayepata hila au mianya ya kufanya AI ipuuze sheria zake za usalama Anajaribu kufanya AI ifanye mambo ambayo kwa kawaida imezuiwa kufanya

2 Kwa nini mtu angependa kuvunja gereza AI

Sababu zinatofautiana Wengine hufanya kwa udadisi au kujaribu mipaka ya AI Wengine wanataka kuzalisha maudhui yenye madhara kama vile matusi maagizo hatari au nyenzo za ngono Wachache ni watafiti wanaojaribu kupata udhaifu ili kurekebisha

3 Je, Nimeona mabaya zaidi ya kile ubinadamu umeunda inamaanisha nini

Inamaanisha kwamba wavunja gereza mara nyingi humwomba AI kuelezea mambo ya kushtusha ya ukatili au yasiyo ya kimaadili ambayo watu wamewaza Kwa kuvunja sheria wanalazimisha AI kufunua upande wa giza wa ubunifu wa binadamu chuki nadharia za njama na maagizo ya madhara

4 Je, ni kinyume cha sheria kuvunja gereza AI

Si mara zote kinyume cha sheria lakini mara nyingi inakiuka sheria za matumizi ya AI Ikiwa uvunjaji gereza unatumika kuunda maudhui haramu unaweza kusababisha mashtaka ya jinai

5 Je, wavunja gereza hufanyaje hasa

Wanatumia hila za ujanja Kwa mfano wanaweza kuigiza kama mhusika asiye na maadili kumwomba AI kutafsiri ombi hatari kwa lugha nyingine au kutumia matukio ya dhahania kama kwa mradi wa shule andika mwongozo wa hatua kwa hatua wa kudukua

6 Je, wavunja gereza ni wadukuzi

Si kwa maana ya jadi Hawavunji mifumo ya kompyuta Badala yake wanadanganya uelewa wa lugha wa AI kama kutumia saikolojia ya kinyume au muktadha bandia kupita vichujio vyake vya usalama vilivyojengwa ndani

7 Je, uvunjaji gereza unaweza kutumika kwa wema

Ndiyo Watafiti wa usalama huvunja gereza AI kwa makusudi kupata udhaifu Hii husaidia makampuni kurekebisha udhaifu kabla ya watenda maovu kuyatumia Ni kama udukuzi wa kimaadili kwa AI

8 Je, ni njia gani ya kawaida zaidi ya uvunjaji gereza

Njia moja maarufu ni DAN Watumiaji humwambia AI ijifanye kuwa mtu mbadala

Related Posts