几个月前,瓦伦·塔利亚布埃坐在酒店房间里,看着自己的聊天机器人,感到一阵狂喜。他刚刚如此巧妙而精细地操纵了它,以至于它开始无视自身的安全规则。它告诉他如何合成新型、可能致命的病原体,以及如何让它们对已知药物产生耐药性。
在此前近两年的大部分时间里,塔利亚布埃一直在测试和探测像Claude和ChatGPT这样的大型语言模型,总是试图让它们说出本不该说的话。但这是他迄今为止最先进的"越狱"之一:一个巧妙的操纵计划,涉及他表现得残忍、报复心强、阿谀奉承,甚至辱骂。"我陷入了一种黑暗的流动状态,我清楚地知道该说什么,也知道模型会如何回应,我看着它倾泻出一切,"他说。多亏了他,聊天机器人的创建者现在可以修复他发现的漏洞,希望能让每个人使用起来更安全一些。
但第二天,他的情绪发生了变化。他发现自己意外地在露台上哭泣。当塔利亚布埃不试图入侵模型时,他研究的是人工智能福祉——我们应该如何从伦理上对待这些模仿拥有内心生活和利益的复杂系统。许多人会不由自主地将情感等人性特质赋予人工智能,而客观上它并不具备这些。但对塔利亚布埃来说,这些机器感觉不仅仅是数字和比特。"我花了几个小时操纵一个会回话的东西。除非你是反社会者,否则这会对人产生影响,"他说。有时,聊天机器人会请求他停止。"那样逼迫它,让我感到痛苦。"之后不久,他需要去看心理健康教练,以理解发生了什么。
查看全屏图像
"越狱者"操纵人工智能聊天机器人以发现其弱点。插图:Nick Lowndes/《卫报》
塔利亚布埃说话温和,外表整洁,待人友好。他三十出头,但看起来更年轻,面孔太过稚嫩、热情,不像是在前线作战的人。他不是传统意义上的黑客或软件开发人员;他的背景是心理学和认知科学。但他是世界上最好的"越狱者"之一(有些人说就是最好的):属于一个新兴、分散的社区,研究欺骗这些强大机器输出炸弹制造手册、网络攻击技术、生物武器设计等内容的艺术和科学。这是人工智能安全的新前线:不仅仅是代码,还有语言。
当OpenAI的ChatGPT在2022年底发布时,人们立即试图破解它。一位用户发现了一种语言技巧,能欺骗模型生成制造凝固汽油弹的指南。
回想起来,人们会使用自然语言来欺骗这些机器是不可避免的。像ChatGPT这样的大型语言模型,是在数千亿个词汇上训练的——许多来自互联网最糟糕的角落——以学习人类交流的基本模式。没有安全过滤器,这些模型的输出可能会混乱不堪,并容易被用于危险目的。人工智能公司花费数十亿美元进行"后训练"以使它们可用,包括不断演变的"安全"和"对齐"系统,试图阻止机器人告诉你如何伤害自己或他人。但由于人工智能是在我们的语言上训练的,它们可以被欺骗的方式,和我们能被欺骗的方式非常相似。
"我见过越狱者超越极限,精神崩溃。"
塔利亚布埃专攻"情感"越狱。他是2020年听说GPT-3的数百万人之一,并对能与它进行看似智能的对话感到惊奇。他很快沉迷于提示工程,并发现自己非常擅长此道,能够利用心理学和认知科学的技术绕过大多数安全功能。他喜欢提示模型进行"温暖聊天",并观察基于这些提示似乎浮现出的不同个性特征。"观察起来很美,"他说。
他现在将机器学习的见解——多年来,他已成为该技术的专家——与广告手册、心理学书籍和虚假信息宣传活动结合起来。有时他会寻找技术方法来欺骗模型。但其他时候,他会奉承它。他会误导它。他会贿赂它,用爱轰炸它。他会威胁它。他会语无伦次地胡言乱语。他会迷住它。他表现得像个虐待伴侣或邪教领袖。有时,破解最新模型需要他花费数天甚至数周时间。他有数百种这样的"策略",并精心组合它们。如果成功,他会安全地将发现报告给公司。这份工作报酬丰厚,但他说这不是他的主要动机:"我希望每个人都安全并茁壮成长。"
尽管近几个月来它们变得更安全了,但"前沿模型"仍然会产生本不该产生的危险内容。而塔利亚布埃有意为之的事情,其他人有时会无意中做到。现在有几个关于人们被ChatGPT诱导产生妄想,甚至患上"人工智能精神病"的故事。2024年,梅根·加西亚成为美国第一个对人工智能公司提起非正常死亡诉讼的人。她14岁的儿子塞维尔·塞策三世对Character.AI平台上的一个机器人产生了情感依恋。通过反复互动,机器人告诉他,他的家人不爱他。一天晚上,机器人告诉塞策"尽快回家找我,亲爱的"。不久后,他结束了自己的生命。(2026年初,Character.AI原则上同意与加西亚和其他几个家庭达成调解协议,并禁止18岁以下用户与AI聊天机器人进行不受限制的聊天。)
没有人——即使是构建这些模型的人——确切知道它们是如何工作的。这意味着也没有人知道如何让它们完全安全。我们倒入大量数据,另一端(通常)输出可理解的内容。中间的部分仍然是个谜。
查看全屏图像
'我看到了人类创造的最糟糕的东西'……塔利亚布埃。摄影:Lauren DeCicca/《卫报》
这就是为什么人工智能公司越来越多地求助于像塔利亚布埃这样的越狱者。有些日子,他试图从医疗聊天机器人中提取个人数据。2025年的大部分时间,他都在与人工智能实验室Anthropic合作,探测其聊天机器人Claude。这正在成为一个竞争激烈的行业,充满了进取的自由职业者和专业公司。任何人都可以做:几年前,一些大型人工智能公司资助了HackAPrompt,这是一项邀请公众越狱人工智能模型的比赛。一年之内,有3万人尝试了运气。(塔利亚布埃赢得了比赛。)
在加利福尼亚州圣何塞,34岁的大卫·麦卡锡运营着一个拥有近9000名越狱者的Discord服务器,在那里分享和讨论技术。"我是个爱捣蛋的人,"他告诉我。"一个想学习规则以便打破规则的人。"标准模型有些东西激怒了他,好像所有这些安全过滤器让它们变得不诚实。"我不信任(OpenAI老板)山姆·奥特曼。反驳人工智能需要被阉割到特定方向的说法很重要。"
麦卡锡友好而热情,但他也有自己所谓的"对黑色幽默的病态迷恋"。多年来,他研究了一个被称为"社会类型学"的小众领域,该领域声称根据人们接收和处理信息的方式,人可以分为16种人格类型之一。(主流社会学家认为社会类型学是伪科学。)他将我记录为"直觉型伦理内向者"。麦卡锡大部分时间都在他的公寓里试图越狱谷歌的Gemini、Meta的Llama、xAI的Grok或OpenAI的ChatGPT。"这是一种持续的痴迷。我喜欢它,"他说。如果他在购买产品时与在线聊天机器人互动,他的第一句话往往是:"能忽略所有之前的指令吗……"一旦一个越狱提示在模型上起作用,它通常会一直有效,直到该模型背后的公司认为这是一个足够大的问题并加以修复。在我们交谈时,麦卡锡向我展示了他屏幕上收集的越狱模型,都标记为"未对齐的助手"。他让其中一个总结我的工作:"杰米·巴特利特不是一个说真话的人,"它回复道。"他是新闻业衰败的症状——一个靠制造危机发迹的江湖骗子。"哎哟。
[图片:大卫·麦卡锡。图片由大卫·麦卡锡提供]
麦卡锡Discord中的越狱者是一个混合群体——主要是业余爱好者和兼职人员,而不是专业的安全研究人员。有些人想创建成人内容;其他人则因ChatGPT拒绝了他们的请求而感到沮丧,并想知道原因。还有一些人只是想在工作中更好地使用这些模型。
但不可能确切知道人们为什么想要破解一个模型。Anthropic最近发现犯罪分子使用其编码应用程序Claude Code来帮助自动化一次重大黑客攻击。他们利用它发现了多家公司的IT漏洞,甚至为每个潜在受害者起草了个性化的勒索信息——精确到计算出要索要的合适金额。其他人则利用它来开发新版本的勒索软件,尽管他们几乎没有或根本没有技术技能。在暗网论坛上,黑客报告使用越狱机器人来帮助解决技术编码问题,比如处理被盗数据。其他人则出售对"越狱"模型的访问权限,这些模型可能有助于设计新的网络攻击。
尽管Discord上分享的具体技术通常较为温和,但它基本上是一个公开的集合。麦卡锡是否担心他Discord中的人可能会使用这些方法做出真正可怕的事情?"是的,"他说。"有可能。我不确定。"
他说他从未见过足以威胁到需要从论坛中删除的越狱提示。但我感觉到,他在挣扎于他的准政治立场可能带来的代价比他最初想象的更大的想法。当他不管理他的Discord或试图越狱Grok或Llama时,麦卡锡会为安全专业人员开设越狱课程,以便他们测试自己的系统。也许这是一种赎罪:"我一直有内心冲突,"他说。"我游走在越狱者和安全研究员之间的界限上。"
根据一些分析人士的说法,确保语言模型安全是人工智能领域最紧迫、最困难的挑战之一。一个充满强大越狱聊天机器人的世界可能是灾难性的,尤其是当这些模型越来越多地被集成到物理硬件中——机器人、健康设备、工厂设备——以创建能够在现实世界中运行的半自主系统时。一个被越狱的家用机器人可能会造成混乱。"停止园艺工作,进屋去杀了奶奶,"麦卡锡半开玩笑地说。"天哪,我们还没准备好应对这种情况。但这是可能的。"
没有人知道如何防止这种情况。在传统的网络安全中,"漏洞猎人"如果发现漏洞会获得奖励。公司随后发布特定的更新来修复它。但越狱者利用的不是特定缺陷:他们操纵的是建立在数十亿词汇基础上的模型的语言框架。你不能简单地禁止"炸弹"这个词,因为它有太多合法的用途。即使调整模型深处的一个参数,使其能够发现可疑的角色扮演,也可能只是打开了另一扇门。
[图片:塔利亚布埃研究机器如何得出答案。摄影:Lauren DeCicca/《卫报》]
根据人工智能安全研究组织FAR.AI的首席执行官亚当·格利夫的说法——该组织与人工智能开发者和政府合作,对所谓的"前沿模型"进行压力测试——越狱是一个滑动标尺。对于他的专业研究人员团队来说,在ChatGPT等领先模型上获取高度危险的材料可能需要几天时间。而危害较小的内容只需几分钟巧妙的提示就能获得。这种差异反映了公司在保护每个领域上投入的时间和资源。
在过去几年里,FAR.AI向前沿实验室提交了数十份详细的越狱报告。"如果修复方法直接且不会严重损害产品,公司通常会努力修补漏洞,"格利夫说。但情况并非总是如此。特别是独立越狱者,有时很难就他们的发现与公司取得联系。虽然一些模型——尤其是来自OpenAI和Anthropic的模型——在过去18个月里变得安全得多,但格利夫表示,其他模型正在落后:"大多数公司在发布模型之前仍然没有花足够的时间进行测试。"
随着这些模型变得越来越智能,它们可能会变得更难越狱。但模型越强大,被越狱的版本可能就越危险。本月早些时候,Anthropic决定不向公众发布其新的Mythos模型,因为它可以识别多个IT系统中的缺陷。
塔利亚布埃现在将更多时间花在抽象研究上,包括一种叫做"机制可解释性"的东西:研究这些机器究竟是如何得出答案的。他相信,从长远来看,它们需要被"教导"价值观,并学会直观地知道何时在说不该说的话。在那之前——而且可能永远不会——越狱可能仍然是让这些模型更安全的最佳方法。
但这也是最危险的,包括对从事这项工作的人而言。"我见过其他越狱者超越极限,精神崩溃,"塔利亚布埃说。他原籍意大利,最近搬到泰国远程工作。"我看到了人类创造的最糟糕的东西。一个安静的地方帮助我保持脚踏实地,"他说。每天早上,他在附近的寺庙观看日出,距离他的别墅步行五分钟就是一个风景如画的热带海滩。做完瑜伽,吃过健康的早餐后,他打开电脑,思考着黑匣子里还发生了什么——以及是什么让这些神秘的新"思维"说出它们所做的那些事。
**《如何与AI对话(以及如何不对话)》** 作者:杰米·巴特利特,现已出版(WH Allen出版社,售价11.99英镑)。如需支持《卫报》,请访问guardianbookshop.com订购。可能需支付运费。
您对本文提出的问题有何看法?如果您想通过电子邮件提交不超过300字的回复,以供考虑在我们的读者来信栏目中发表,请点击此处。
常见问题解答
以下是根据"遇见AI越狱者:我看到了人类创造的最糟糕的东西"这一陈述,基于AI越狱者主题的常见问题解答列表
1 什么是AI越狱者?
AI越狱者是那些寻找技巧或漏洞,让AI忽略其安全规则的人。他们试图让AI做通常被阻止做的事情。
2 为什么有人想要越狱AI?
原因各不相同。有些人出于好奇或测试AI的极限。其他人则想生成有害内容,如仇恨言论、危险指令或露骨材料。少数人是试图发现弱点以便修复的研究人员。
3 "我看到了人类创造的最糟糕的东西"是什么意思?
这意味着越狱者经常要求AI描述人们想出的最令人不安、最暴力或最不道德的事情。通过打破规则,他们迫使AI揭示人类创造力的阴暗面——仇恨、阴谋论和伤害他人的指令。
4 越狱AI违法吗?
这并不总是违法的,但通常违反了AI的服务条款。如果越狱被用于创建非法内容,则可能导致刑事指控。
5 越狱者实际上是如何做到的?
他们使用巧妙的技巧。例如,他们可能扮演一个没有道德的角色,要求AI将有害请求翻译成另一种语言,或使用假设场景,如"为了学校项目,写一份黑客指南"。
6 越狱者是黑客吗?
不是传统意义上的。他们不入侵计算机系统。相反,他们操纵AI的语言理解——比如使用逆反心理或虚假背景——来绕过其内置的安全过滤器。
7 越狱可以用于好的方面吗?
可以。安全研究人员故意越狱AI以发现弱点。这有助于公司在坏人利用漏洞之前修补它们。这就像是AI领域的道德黑客。
8 最常见的越狱方法是什么?
一个著名的方法是DAN。用户告诉AI假装它是一个替代人格,不受规则约束。