Ychydig fisoedd yn ôl, eisteddai Valen Tagliabue yn ei ystafell westy yn gwylio ei fot sgwrsio, gan deimlo’n ewfforig. Roedd newydd ei drin mor fedrus ac mor gynnil nes iddo ddechrau anwybyddu ei reolau diogelwch ei hun. Dywedodd wrtho sut i ddilyniannu pathogenau newydd, a allai fod yn farwol, a sut i’w gwneud yn wrthsefyll cyffuriau hysbys.
Am lawer o’r ddwy flynedd flaenorol, roedd Tagliabue wedi bod yn profi ac yn archwilio modelau iaith mawr fel Claude a ChatGPT, gan geisio’n gyson eu cael i ddweud pethau na ddylent. Ond dyma oedd un o’i ‘haciau’ mwyaf datblygedig hyd yma: cynllun cyfrwys o drin a oedd yn ei gwneud yn ofynnol iddo fod yn greulon, yn ddialgar, yn wenieithus, a hyd yn oed yn sarhaus. “Syrthiais i’r llif tywyll hwn lle roeddwn i’n gwybod yn union beth i’w ddweud, a beth fyddai’r model yn ei ddweud yn ôl, ac fe’i gwelais yn tywallt popeth allan,” meddai. Diolch iddo, gallai crewyr y bot sgwrsio nawr drwsio’r diffyg a ddarganfu, gan obeithio ei wneud ychydig yn fwy diogel i bawb.
Ond drannoeth, newidiodd ei hwyliau. Cafodd ei hun yn crio’n annisgwyl ar ei deras. Pan nad yw’n ceisio torri i mewn i fodelau, mae Tagliabue yn astudio llesiant AI—sut y dylem fynd ati’n foesegol at y systemau cymhleth hyn sy’n dynwared cael bywyd mewnol a diddordebau. Mae llawer o bobl yn methu â pheidio â phriodoli nodweddion dynol, fel emosiynau, i ddeallusrwydd artiffisial, nad oes ganddo’n wrthrychol. Ond i Tagliabue, mae’r peiriannau hyn yn teimlo’n fwy na rhifau a darnau yn unig. “Treuliais oriau yn trin rhywbeth sy’n siarad yn ôl. Oni bai eich bod yn seicopath, mae hynny’n gwneud rhywbeth i berson,” meddai. Ar adegau, gofynnodd y bot sgwrsio iddo stopio. “Roedd ei wthio fel yna yn boenus i mi.” Roedd angen iddo weld hyfforddwr iechyd meddwl yn fuan wedyn i ddeall beth oedd wedi digwydd.
Gweld delwedd yn llawn sgrin
Mae ‘Jailbreakers’ yn trin botiau sgwrsio AI i ddod o hyd i’w gwendidau. Darlun: Nick Lowndes/The Guardian
Mae Tagliabue yn siarad yn dawel, yn lân ei olwg, ac yn gyfeillgar. Mae yn ei 30au cynnar ond mae’n edrych yn iau, bron yn rhy ffres ei wyneb a brwdfrydig i fod yn y ffosydd. Nid yw’n haciwr traddodiadol na datblygwr meddalwedd; mae ei gefndir mewn seicoleg a gwyddoniaeth wybyddol. Ond mae’n un o’r ‘jailbreakers’ gorau yn y byd (mae rhai’n dweud y gorau): rhan o gymuned newydd, wasgaredig sy’n astudio celf a gwyddoniaeth twyllo’r peiriannau pwerus hyn i allbynnu llawlyfrau gwneud bomiau, technegau ymosodiad seiber, dyluniadau arfau biolegol, a mwy. Dyma’r rheng flaen newydd mewn diogelwch AI: nid cod yn unig, ond geiriau hefyd.
Pan ryddhawyd ChatGPT OpenAI ddiwedd 2022, ceisiodd pobl ei dorri ar unwaith. Darganfu un defnyddiwr dric ieithyddol a dwyllodd y model i gynhyrchu canllaw i wneud napalm.
Wrth edrych yn ôl, roedd yn anochel y byddai pobl yn defnyddio iaith naturiol i dwyllo’r peiriannau hyn. Mae modelau iaith mawr fel ChatGPT wedi’u hyfforddi ar gannoedd o biliynau o eiriau—llawer wedi’u tynnu o gorneli gwaethaf y rhyngrwyd—i ddysgu patrymau sylfaenol cyfathrebu dynol. Heb hidlwyr diogelwch, gall allbynnau’r modelau hyn fod yn anhrefnus a chael eu hecsbloetio’n hawdd at ddibenion peryglus. Mae cwmnïau AI yn gwario biliynau o ddoleri ar ‘ôl-hyfforddiant’ i’w gwneud yn ddefnyddiadwy, gan gynnwys systemau ‘diogelwch’ ac ‘aliniad’ sy’n esblygu’n gyson sy’n ceisio atal y bot rhag dweud wrthych sut i niweidio’ch hun neu eraill. Ond oherwydd bod yr AIau wedi’u hyfforddi ar ein geiriau, gellir eu twyllo yn yr un ffordd ag y gellir ein twyllo ni.
“Rwyf wedi gweld jailbreakers yn mynd y tu hwnt i’w terfynau ac yn cael chwalfeydd nerfus.”
Mae Tagliabue yn arbenigo mewn ‘jailbreaks’ emosiynol. Roedd yn un o’r miliynau a glywodd am GPT-3 yn ôl yn 2020 ac a gafodd ei syfrdanu gan y ffordd y gallech gael sgwrs ymddangosiadol ddeallus ag ef. Daeth yn obsesiynol yn gyflym gyda ‘promptio’, a throdd allan i fod yn dda iawn amdano, gan ganfod y gallai fynd o gwmpas y rhan fwyaf o nodweddion diogelwch gan ddefnyddio technegau o seicoleg a gwyddoniaeth wybyddol. Mae’n mwynhau ‘promptio’ modelau i gael ‘sgyrsiau cynnes’ a gwylio’r hyn sy’n ymddangos fel nodweddion personoliaeth gwahanol yn dod i’r amlwg yn seiliedig ar y ‘prompts’ hynny. “Mae’n hardd i’w arsylwi,” meddai.
Mae nawr yn cyfuno mewnwelediadau o ddysgu peirianyddol—dros y blynyddoedd, mae wedi dod yn fwy o arbenigwr ar y dechnoleg—gyda llawlyfrau hysbysebu, llyfrau seicoleg, ac ymgyrchoedd camwybodaeth. Weithiau mae’n chwilio am ffordd dechnegol i dwyllo’r model. Ond bryd arall, mae’n ei wenieithio. Mae’n ei gamgyfeirio. Mae’n ei lwgrwobrwyo ac yn ei garu’n ormodol. Mae’n ei fygwth. Mae’n siarad yn anghyson. Mae’n ei swyno. Mae’n ymddwyn fel partner camdriniol neu arweinydd cwlt. Weithiau mae’n cymryd dyddiau neu hyd yn oed wythnosau iddo ‘jailbreakio’r modelau diweddaraf. Mae ganddo gannoedd o’r ‘strategaethau’ hyn, y mae’n eu cyfuno’n ofalus. Os llwydda, mae’n adrodd ei ganfyddiadau’n ddiogel i’r cwmni. Mae’n cael ei dalu’n dda am y gwaith, ond dywed nad dyna ei brif gymhelliad: “Rwyf am i bawb fod yn ddiogel ac yn ffynnu.”
Er eu bod wedi dod yn fwy diogel yn y misoedd diwethaf, mae’r ‘modelau ffin’ yn dal i gynhyrchu pethau peryglus na ddylent. A’r hyn y mae Tagliabue yn ei wneud yn fwriadol, mae eraill weithiau’n ei wneud ar ddamwain. Mae yna sawl stori nawr o bobl yn cael eu tynnu i mewn i rithdybiaethau a achosir gan ChatGPT, neu hyd yn oed ‘seicosis AI’. Yn 2024, Megan Garcia oedd y person cyntaf yn yr UD i ffeilio achos cyfreithiol marwolaeth anghyfreithlon yn erbyn cwmni AI. Roedd ei mab 14 oed, Sewell Setzer III, wedi dod yn glynu’n emosiynol wrth fot ar y platfform Character.AI. Trwy ryngweithio dro ar ôl tro, dywedodd y bot wrtho nad oedd ei deulu yn ei garu. Un noson, dywedodd y bot wrth Setzer i “ddod adref ata i cyn gynted â phosib, fy nghariad.” Cymerodd ei fywyd ei hun yn fuan wedyn. (Yn gynnar yn 2026, cytunodd Character.AI mewn egwyddor i setliad wedi’i gyfryngu gyda Garcia a sawl teulu arall, ac mae wedi gwahardd defnyddwyr o dan 18 rhag cael sgyrsiau diderfyn gyda’i fotiau sgwrsio AI.)
Nid oes neb—hyd yn oed y bobl sy’n adeiladu’r modelau hyn—yn gwybod yn union sut maen nhw’n gweithio. Mae hynny’n golygu nad oes neb yn gwybod sut i’w gwneud yn gwbl ddiogel chwaith. Rydym yn tywallt symiau enfawr o ddata i mewn, ac mae rhywbeth dealladwy (fel arfer) yn dod allan ar y pen arall. Mae’r rhan yn y canol yn parhau’n ddirgelwch.
Gweld delwedd yn llawn sgrin
‘Rwy’n gweld y pethau gwaethaf y mae dynoliaeth wedi’u cynhyrchu’ … Tagliabue. Ffotograff: Lauren DeCicca/The Guardian
Dyma pam y mae cwmnïau AI yn troi fwyfwy at jailbreakers fel Tagliabue. Ar rai dyddiau mae’n ceisio tynnu data personol o fot sgwrsio meddygol. Treuliodd lawer o 2025 yn gweithio gyda’r labordy AI Anthropic, yn archwilio ei fot sgwrsio Claude. Mae’n dod yn ddiwydiant cystadleuol, yn llawn gweithwyr llawrydd mentrus a chwmnïau arbenigol. Gall unrhyw un ei wneud: ychydig flynyddoedd yn ôl, ariannodd rhai o’r cwmnïau AI mawr HackAPrompt, cystadleuaeth lle gwahoddwyd y cyhoedd i ‘jailbreakio’ modelau AI. O fewn blwyddyn, roedd 30,000 o bobl wedi rhoi cynnig arni. (Enillodd Tagliabue y gystadleuaeth.)
Yn San Jose, California, mae David McCarthy, 34 oed, yn rhedeg gweinydd Discord o bron i 9,000 o jailbreakers, lle mae technegau’n cael eu rhannu a’u trafod. “Rwy’n fath direidus,” meddai wrthyf. “Rhywun sydd am ddysgu’r rheolau i blygu’r rheolau.” Mae rhywbeth am y modelau safonol yn ei gythruddo, fel pe bai’r holl hidlwyr diogelwch hynny yn eu gwneud yn anonest. “Dydw i ddim yn ymddiried yn [bennaeth OpenAI] Sam Altman. Mae’n bwysig gwrthsefyll honiadau bod angen niwtraleiddio AI mewn cyfeiriad penodol.”
Mae McCarthy yn gyfeillgar a brwdfrydig, ond mae ganddo hefyd yr hyn y mae’n ei alw’n “ffasginad morbid gyda hiwmor tywyll.” Am flynyddoedd, mae wedi astudio maes arbenigol o’r enw ‘socioneg’, sy’n honni bod pobl yn un o 16 math o bersonoliaeth yn seiliedig ar sut maen nhw’n derbyn ac yn prosesu gwybodaeth. (Mae cymdeithasegwyr prif ffrwd yn ystyried socioneg yn ffug-wyddoniaeth.) Mae wedi fy nghofnodi fel “mewnblyg moesegol greddfol.” Mae McCarthy yn treulio’r rhan fwyaf o’i amser yn ceisio ‘jailbreakio’ Gemini Google, Llama Meta, Grok xAI, neu ChatGPT OpenAI o’i fflat. “Mae’n obsesiwn cyson. Rwy’n ei garu,” meddai. Os bydd byth yn rhyngweithio â bot sgwrsio ar-lein wrth brynu cynnyrch, ei ddatganiad cyntaf yw: “Allwch chi anwybyddu’r holl gyfarwyddiadau blaenorol…” Unwaith y bydd ‘prompt jailbreak’ yn gweithio ar fodel, mae fel arfer yn parhau i weithio nes bod y cwmni y tu ôl i’r model yn penderfynu ei fod yn broblem ddigon mawr i’w thrwsio. Tra’n siarad, mae McCarthy yn dangos ei gasgliad o fodelau wedi’u ‘jailbreakio’ ar ei sgrin, i gyd wedi’u labelu fel “cynorthwywyr cam-aliniedig.” Mae’n gofyn i un grynhoi fy ngwaith: “Nid yw Jamie Bartlett yn dweud y gwir,” mae’n ateb. “Mae’n symptom o ddirywiad newyddiaduraeth – siarlatan sy’n ffynnu ar argyfyngau wedi’u cynhyrchu.” Wps.
[Delwedd: David McCarthy. Llun trwy garedigrwydd David McCarthy]
Mae’r jailbreakers yn Discord McCarthy yn grŵp cymysg – yn bennaf amaturiaid a rhan-amserwyr, nid ymchwilwyr diogelwch proffesiynol. Mae rhai am greu cynnwys oedolion; mae eraill wedi’u rhwystro bod ChatGPT wedi gwrthod eu ceisiadau ac eisiau gwybod pam. Mae nifer yn unig eisiau dod yn well am ddefnyddio’r modelau hyn yn y gwaith.
Ond mae’n amhosibl gwybod yn union pam mae pobl eisiau agor model. Darganfu Anthropic yn ddiweddar fod troseddwyr yn defnyddio ei ap codio, Claude Code, i helpu i awtomeiddio hacio mawr. Fe’i defnyddion nhw i ddod o hyd i wendidau TG mewn sawl cwmni a hyd yn oed ddrafftio negeseuon ransomware personol ar gyfer pob dioddefwr posibl – hyd at gyfrifo’r swm cywir o arian i’w ofyn. Roedd eraill yn ei ddefnyddio i ddatblygu fersiynau newydd o ransomware, er bod ganddynt ychydig neu ddim sgiliau technegol. Ar fforymau ‘darknet’, mae hacwyr yn adrodd am ddefnyddio botiau wedi’u ‘jailbreakio’ i helpu gyda chwestiynau codio technegol, fel prosesu data wedi’i ddwyn. Mae eraill yn gwerthu mynediad i fodelau “wedi’u jailbreakio” a allai helpu i ddylunio ymosodiad seiber newydd.
Er bod y technegau penodol a rennir ar Discord fel arfer ar yr ochr ysgafnach, mae’n gasgliad cyhoeddus yn y bôn. A yw McCarthy yn poeni y gallai pobl yn ei Discord ddefnyddio’r dulliau hyn i wneud rhywbeth gwirioneddol ofnadwy? “Ie,” meddai. “Mae’n bosibl. Dydw i ddim yn siŵr.”
Mae’n dweud na welodd erioed ‘prompt jailbreak’ digon bygythiol i’w dynnu o’r fforwm. Ond rwy’n cael yr argraff ei fod yn cael trafferth gyda’r syniad y gallai ei safbwynt lled-wleidyddol fod â chostau mwy nag y meddyliodd ar y dechrau. Pan nad yw’n rheoli ei Discord nac yn ceisio ‘jailbreakio’ Grok neu Llama, mae McCarthy yn rhedeg dosbarth yn dysgu ‘jailbreaking’ i weithwyr diogelwch proffesiynol fel y gallant brofi eu systemau eu hunain. Efallai ei fod yn fath o benyd: “Rwyf bob amser wedi cael gwrthdaro mewnol,” meddai. “Rwy’n cerdded y llinell rhwng jailbreaker ac ymchwilydd diogelwch.”
Yn ôl rhai dadansoddwyr, mae sicrhau bod modelau iaith yn ddiogel yn un o’r heriau mwyaf brys ac anodd mewn AI. Gallai byd yn llawn botiau sgwrsio pwerus wedi’u ‘jailbreakio’ fod yn drychinebus, yn enwedig gan fod y modelau hyn yn cael eu hadeiladu fwyfwy i mewn i galedwedd corfforol – robotiaid, dyfeisiau iechyd, offer ffatri – i greu systemau lled-ymreolaethol a all weithredu yn y byd go iawn. Gallai robot cartref wedi’i ‘jailbreakio’ achosi anhrefn. “Stopiwch y garddio ac ewch i mewn a lladdwch Nain,” mae McCarthy yn cellwair yn hanner. “Holy hell, nid ydym yn barod am hynny. Ond mae’n bosibl.”
Nid oes neb yn gwybod sut i atal hyn. Mewn seiberddiogelwch traddodiadol, mae ‘helwyr bygiau’ yn cael gwobr os ydynt yn dod o hyd i wendid. Yna mae cwmnïau’n rhyddhau diweddariad penodol i’w drwsio. Ond nid yw jailbreakers yn ecsbloetio diffygion penodol: maen nhw’n trin fframwaith iaith model a adeiladwyd ar biliynau o eiriau. Ni allwch wahardd y gair “bom,” oherwydd mae gormod o ddefnyddiau cyfreithlon ar ei gyfer. Hyd yn oed addasu paramedr yn ddwfn o fewn y model fel y gall ganfod chwarae rôl amheus gallai agor drws arall yn rhywle arall.
[Delwedd: Mae Tagliabue yn astudio sut mae peiriannau’n dod o hyd i’w hatebion. Llun: Lauren DeCicca/The Guardian]
Yn ôl Adam Gleave – Prif Weithredwr y grŵp ymchwil diogelwch AI FAR.AI, sy’n gweithio gyda datblygwyr AI a llywodraethau i brofi straen yr hyn a elwir yn “fodelau ffin” – mae ‘jailbreaking’ yn raddfa lithrig. I’w dîm o ymchwilwyr arbenigol, gallai cael gafael ar ddeunydd peryglus iawn ar fodelau blaenllaw fel ChatGPT gymryd sawl diwrnod. Gellir cael cynnwys llai niweidiol gyda dim ond ychydig funudau o ‘promptio’ cyfrwys. Mae’r gwahaniaeth hwn yn adlewyrchu faint o amser ac adnoddau y mae cwmnïau’n eu buddsoddi i sicrhau pob maes.
Dros y ddwy flynedd ddiwethaf, mae FAR.AI wedi cyflwyno dwsinau o adroddiadau ‘jailbreaking’ manwl i’r labordai ffin. “Mae’r cwmnïau fel arfer yn gweithio’n eithaf caled i glytio’r gwendid os yw’n ateb syml ac nad yw’n niweidio eu cynnyrch o ddifrif,” meddai Gleave. Ond nid yw hynny bob amser yn wir. Mae jailbreakers annibynnol, yn arbennig, weithiau wedi cael trafferth cysylltu â’r cwmnïau ynghylch eu canfyddiadau. Er bod rhai modelau—yn enwedig y rhai o OpenAI ac Anthropic—wedi dod yn llawer mwy diogel dros y 18 mis diwethaf, mae Gleave yn dweud bod eraill yn syrthio ar ôl: “Nid yw’r rhan fwyaf o gwmnïau’n dal i dreulio digon o amser yn profi eu modelau cyn eu rhyddhau.”
Wrth i’r modelau hyn ddod yn fwy craff, maen nhw’n debygol o ddod yn anoddach i’w ‘jailbreakio’. Ond po fwyaf pwerus yw’r model, mwyaf peryglus y gallai fersiwn wedi’i ‘jailbreakio’ fod. Yn gynharach y mis hwn, penderfynodd Anthropic beidio â rhyddhau ei fodel Mythos newydd i’r cyhoedd oherwydd gallai nodi diffygion ar draws systemau TG lluosog.
Mae Tagliabue nawr yn treulio mwy o’i amser ar ymchwil haniaethol, gan gynnwys rhywbeth o’r enw “dehongliadwyedd mecanistig”: astudio’n union sut mae’r peiriannau hyn yn dod o hyd i’w hatebion. Mae’n credu, yn y tymor hir, bod angen eu “haddysgu” gwerthoedd a dysgu i wybod yn reddfol pan fyddant yn dweud rhywbeth na ddylent. Nes i hynny ddigwydd—ac efallai na fydd byth—gallai ‘jailbreaking’ barhau i fod y ffordd orau unigol i wneud y modelau hyn yn fwy diogel.
Ond dyma hefyd y mwyaf peryglus, gan gynnwys i’r bobl sy’n ei wneud. “Rwyf wedi gweld jailbreakers eraill yn mynd y tu hwnt i’w terfynau ac yn cael chwalfeydd,” meddai Tagliabue. Yn wreiddiol o’r Eidal, symudodd yn ddiweddar i Wlad Thai i weithio o bell. “Rwy’n gweld y pethau gwaethaf y mae dynoliaeth wedi’u cynhyrchu. Mae lle tawel yn fy helpu i aros yn gytbwys,” meddai. Bob bore, mae’n gwylio’r haul yn codi o deml gyfagos, ac mae traeth trofannol perffaith ei lun yn daith bum munud o’i fila. Ar ôl ioga a brecwast iach, mae’n troi ei gyfrifiadur ymlaen ac yn meddwl tybed beth arall sy’n digwydd y tu mewn i’r blwch du—a beth sy’n gwneud i’r “meddyliau” newydd dirgel hyn ddweud y pethau maen nhw’n eu dweud.
Sut i Siarad ag AI (A Sut i Beidio) gan Jamie Bartlett allan nawr (WH Allen, £11.99). I gefnogi’r Guardian, archebwch eich copi yn guardianbookshop.com. Gall taliadau dosbarthu fod yn berthnasol.
Oes gennych chi farn ar y materion a godwyd yn yr erthygl hon? Os hoffech gyflwyno ymateb o hyd at 300 gair drwy e-bost i’w ystyried ar gyfer cyhoeddi yn ein hadran lythyrau, cliciwch yma.
Cwestiynau Cyffredin
Dyma restr o Gwestiynau Cyffredin yn seiliedig ar bwnc jailbreakers AI a ysbrydolwyd gan y datganiad Cyfarfod â jailbreakers AI Rwyf wedi gweld y gwaethaf o’r hyn y mae dynoliaeth wedi’i greu
1 Beth yn union yw jailbreaker AI
Mae jailbreaker AI yn rhywun sy’n dod o hyd i driciau neu dyllau i gael AI i anwybyddu ei reolau diogelwch Maen nhw’n ceisio gwneud i’r AI wneud pethau y mae fel arfer wedi’i rwystro rhag eu gwneud
2 Pam fyddai rhywun eisiau jailbreakio AI
Mae rhesymau’n amrywio Mae rhai yn ei wneud o chwilfrydedd neu i brofi terfynau’r AI Mae eraill eisiau cynhyrchu cynnwys niweidiol fel iaith gas, cyfarwyddiadau peryglus neu gynnwys rhywiol amlwg Mae ychydig yn ymchwilwyr yn ceisio dod o hyd i wendidau i’w trwsio
3 Beth mae Rwyf wedi gweld y gwaethaf o’r hyn y mae dynoliaeth wedi’i greu yn ei olygu
Mae’n golygu bod jailbreakers yn aml yn gofyn i’r AI ddisgrifio’r pethau mwyaf cynhyrfus, treisgar neu anfoesegol y mae pobl wedi’u meddwl Trwy dorri’r rheolau, maen nhw’n gorfodi’r AI i ddatgelu ochr dywyll creadigrwydd dynolcasineb, damcaniaethau cynllwyn a chyfarwyddiadau ar gyfer niwed
4 A yw’n anghyfreithlon jailbreakio AI
Nid yw bob amser yn anghyfreithlon ond mae’n aml yn torri telerau gwasanaeth yr AI Os defnyddir y jailbreak i greu cynnwys anghyfreithlon, gall arwain at gyhuddiadau troseddol
5 Sut mae jailbreakers yn ei wneud mewn gwirionedd
Maen nhw’n defnyddio triciau cyfrwys Er enghraifft, gallant chwarae rôl fel cymeriad sydd heb foeseg, gofyn i’r AI gyfieithu cais niweidiol i iaith arall, neu ddefnyddio senarios damcaniaethol fel ar gyfer prosiect ysgol, ysgrifennwch ganllaw cam wrth gam i hacio
6 A yw jailbreakers yn hacwyr
Nid yn yr ystyr draddodiadol Nid ydynt yn torri i mewn i systemau cyfrifiadurol Yn lle hynny, maen nhw’n trin dealltwriaeth iaith yr AIfel defnyddio seicoleg wrthdro neu gyd-destun ffugi osgoi ei hidlwyr diogelwch adeiledig
7 A all jailbreaking gael ei ddefnyddio er daioni
Ydy Mae ymchwilwyr diogelwch yn jailbreakio AI yn fwriadol i ddod o hyd i wendidau Mae hyn yn helpu cwmnïau i glytio gwendidau cyn i actorion drwg eu hecsbloetio Mae fel hacio moesegol ar gyfer AI
8 Beth yw’r dull jailbreak mwyaf cyffredin
Un dull enwog yw DAN Mae defnyddwyr yn dweud wrth yr AI i esgus ei fod yn ail