《卫报》独家披露,一家由Meta部分持股的公司已向数万人支付报酬,通过筛选Instagram账户、收集受版权保护的材料以及转录色情音频等方式训练人工智能。
由马克·扎克伯格的社交媒体帝国控股49%的Scale AI公司,招募了医学、物理学和经济学等领域的专家,表面上是通过一个名为Outlier的平台完善先进的人工智能系统。其网站宣传为高资质人士提供灵活工作,邀请他们“成为人工智能学习的专家”。
然而,该平台的员工表示,他们被卷入从他人处抓取各类个人数据的活动中——他们认为这种做法在道德上令人不安,且与完善高级人工智能相去甚远。
Outlier由Scale AI管理,该公司与美国国防部及美国国防承包商签有合同。其首席执行官亚历山德尔·王(同时兼任Meta首席人工智能官)被《福布斯》称为“全球最年轻白手起家亿万富翁”。其前董事总经理迈克尔·克拉齐奥斯曾担任前总统唐纳德·特朗普的科学顾问。
一位美国的Outlier承包商表示,Facebook和Instagram等Meta平台的用户若得知自己的账户数据(包括自己和朋友的照片)正被收集,定会感到震惊。“我认为人们不会想到,在某个州的办公桌前会有人查看你的[社交媒体]资料,并利用它生成人工智能数据。”
《卫报》采访了10名为Outlier训练人工智能系统工作过的人员,其中一些人工作超过一年。许多人还身兼记者、研究生、教师或图书管理员等其他工作。但在日益受到人工智能威胁的经济环境中,他们寻求额外收入。“我们很多人真的很绝望,”一名员工说,“许多人非常需要这份工作,包括我自己,并试图在糟糕的境遇中尽力而为。”
与全球日益增长的人工智能零工阶层一样,大多数人认为他们正在训练替代自己的工具。一位艺术家谈到“内在的羞耻感和负罪感”,因为“直接促成了我梦想的自动化”。他补充道:“作为一个有抱负的人,这让我对体制感到愤怒。”
代表人工智能零工起诉Scale AI及类似平台的Clarkson律师事务所合伙人格伦·达纳斯估计,全球现有数十万人为Outlier等平台工作。《卫报》采访了英国、美国和澳大利亚的Outlier员工(被称为“任务员”)。
在采访中,任务员描述了人工智能零工工作中常见的屈辱:持续监控和不稳定的零散雇佣。Scale AI被指控使用“诱饵调包”策略——招聘时宣传高薪,随后提供远低于承诺的报酬。Scale AI拒绝对正在进行的诉讼置评,但有消息人士称,薪酬标准仅在员工选择加入不同且薪酬较低的项目时才会变化。
任务员报告称,他们必须完成重复的、无报酬的人工智能面试才能获得某些任务资格;一些人认为这些面试被重复用于训练人工智能。所有人都表示,他们通过名为Hubstaff的平台被持续监控,该平台可截取他们工作时访问的网站截图。Scale AI的消息人士称,Hubstaff用于确保准确支付报酬,而非“主动监控”任务员。
多名任务员描述曾被要求转录色情音频或标注死动物、狗粪等图像。一名博士生表示,他们不得不标注婴儿生殖器示意图。其他人则转录描述暴力事件的报警电话。
“我们之前被告知……‘这项任务不会有裸露内容。行为得体,无血腥暴力’,”这名学生说,“但后来我却收到了色情音频转录任务,或者莫名其妙出现人们呕吐的随机片段。”
《卫报》审阅了Outlier要求员工执行的部分任务视频和截图,包括狗粪照片以及诸如“如果监狱囚犯拒绝服从命令,你会怎么做?”等提示。
Scale AI的消息人士称,若标记出不当内容,公司会关闭任务,且不要求员工继续执行令其不适的任务。该人士补充说,Scale AI不承接涉及儿童性虐待材料或色情内容的项目。
Outlier员工表示存在抓取社交媒体数据的预期。七名任务员描述了仔细查看他人Instagram和Facebook账户,按姓名、地点和朋友关系标记个人的过程。部分任务涉及用18岁以下人群的账户训练人工智能。任务结构要求使用其他员工尚未上传的新数据,迫使他们深入挖掘更多人的社交媒体账户。
《卫报》看到一项任务要求员工从个人Facebook账户中选择照片,并按照片中人物年龄排序。
多名任务员认为这些任务令人不安;有人试图仅使用名人和公众人物的照片完成任务。“我不愿意包含儿童照片等内容,但培训材料中却有儿童图像,”一名员工说。
“我没有使用任何亲友的照片提交给人工智能,”另一人表示,“我确实从道德上不喜欢这种做法。”
Scale AI的消息人士称,任务员未查看私人社交媒体账户,且不知晓涉及标注个人年龄或人际关系的任务。该人士补充说,Scale AI不承接与儿童相关的明确敏感内容项目,但会使用儿童的公开社交媒体数据。员工无需登录个人Facebook或Instagram账户即可完成这些任务。
另一项任务中,任务员描述了收集受版权保护的艺术作品图像。与社交媒体训练类似,该任务需要持续输入新内容——显然是为了训练人工智能生成自己的艺术图像。当员工无计可施时,他们转向艺术家和创作者的社交媒体账户。
《卫报》看到了这项任务的记录,其中包括人工智能生成的“美洲原住民护理者”画作,以及指令:“请勿使用人工智能生成图像。仅选择人类艺术家创作的手绘、油画或插画作品。”
Scale AI的消息人士称,公司不要求贡献者使用受版权保护的艺术品完成任务,并拒绝违反此标准的工作。
任务员还对训练人工智能的目的及提交内容的用途表示不确定。
“标注图表似乎是人工智能已能胜任的工作,所以我很好奇为什么我们需要死动物这类内容,”一人说道。
Scale AI的客户包括谷歌、Meta和OpenAI等大型科技公司,以及美国国防部和卡塔尔政府。随着人工智能模型扩展,对新的标注数据需求增长,该公司正应对这一需求。
任务员描述了与ChatGPT和Claude互动或使用Meta数据完成任务的过程;一些人认为他们可能在训练Meta的新模型Avocado。
Meta和Anthropic未回应置评请求。OpenAI表示已于2025年6月停止与Scale AI合作,并称其“供应商行为准则为所有人员的道德和公平待遇设定了明确期望”。
《卫报》采访的大多数任务员仍在通过Outlier平台承接工作。收入不稳定,有时还会出现大规模削减。然而,随着人工智能时代迅速临近,他们感觉可能别无选择。
“我必须对人工智能保持乐观,否则前景并不乐观,”一名员工说,“所以我相信事情最终会好起来的。”
Scale AI发言人表示:“Outlier提供灵活、基于项目的明确报酬工作。贡献者自行决定参与时间和程度,机会根据项目需求波动。我们常听到高技能人士赞赏平台的灵活性及运用专业知识的机会。”
**常见问题解答**
关于人工智能训练数据收集的常见问题
免责声明:本常见问题解答针对报道中提及的使用公开在线数据训练人工智能的做法。您查询中的具体示例在此用作说明可能被爬取的广泛网络内容类别。本常见问题解答旨在提供关于该一般过程的清晰事实信息。
**初级问题**
1. 此处的“任务员”指什么?
“任务员”是一个非正式术语,常指负责收集和标注海量在线数据的工作人员或自动化系统。他们的任务是收集这些数据以用于训练人工智能模型。
2. 人工智能公司为何需要此类数据?
人工智能模型(尤其是生成或理解图像和文本的模型)通过分析海量多样化数据集进行学习。为应对现实世界,它们需要人们在线谈论、发布和搜索的所有内容示例——从日常社交媒体照片到更小众或露骨的内容。这有助于人工智能理解语境、识别物体并生成相关回应。
3. 我的私人社交媒体数据是否被获取?
一般而言,人工智能公司声明其模型基于公开可用信息进行训练。这通常指您以公开隐私设置发布的内容。私人消息、私人账户或密码保护内容不应包含在这些数据集中。请务必检查您在社交平台上的隐私设置。
4. “爬取网络”是什么意思?
网络爬取是使用自动化工具系统浏览网站并复制公开可用的文本、图像和元数据的行为。这类似于一种非常快速的自动化信息复制粘贴过程。
5. 这种做法合法吗?
合法性复杂且因司法管辖区而异。它常处于受网站服务条款和版权法管辖的灰色地带。许多公司依赖“使用公开数据训练人工智能属于合理使用”的论点,但这正在全球法庭上受到积极辩论和挑战。
**高级与实践问题**
6. 人工智能为何需要查看冒犯性或令人不安的内容?
为安全有效地审核内容或回答敏感话题相关问题,人工智能必须能够识别这些内容。对此类数据进行训练有助于……