Uma empresa parcialmente controlada pela Meta pagou dezenas de milhares de pessoas para treinar inteligência artificial ao vasculhar contas do Instagram, coletar material protegido por direitos autorais e transcrever áudios pornográficos, revela o Guardian.
A Scale AI, controlada em 49% pelo império de mídia social de Mark Zuckerberg, recrutou especialistas em áreas como medicina, física e economia – supostamente para refinar sistemas avançados de IA por meio de uma plataforma chamada Outlier. Seu site anuncia trabalho flexível para indivíduos altamente qualificados, convidando-os a "Tornar-se o especialista de quem a IA aprende".
No entanto, trabalhadores da plataforma afirmam ter sido envolvidos na coleta de uma ampla gama de dados pessoais de outras pessoas – uma prática que descrevem como moralmente problemática e distante do refinamento de IA de alto nível.
A Outlier é gerenciada pela Scale AI, empresa que mantém contratos com o Pentágono e contratantes de defesa dos EUA. Seu CEO, Alexandr Wang, que também é diretor de IA da Meta, foi classificado pela Forbes como o "bilionário self-made mais jovem do mundo". Seu ex-diretor-gerente, Michael Kratsios, atuou como conselheiro de ciência do ex-presidente Donald Trump.
Um contratante da Outlier baseado nos EUA afirmou que usuários de plataformas da Meta como Facebook e Instagram ficariam surpresos ao saber como seus dados de conta – incluindo fotos suas e de amigos – estão sendo coletados. "Não acho que as pessoas entenderiam que haveria alguém em uma mesa em um estado aleatório, olhando seu perfil [de mídia social] e usando-o para gerar dados de IA", disseram.
O Guardian conversou com 10 pessoas que trabalharam treinando sistemas de IA pela Outlier, algumas por mais de um ano. Muitas tinham outros empregos como jornalistas, estudantes de pós-graduação, professores ou bibliotecários. Mas em uma economia cada vez mais ameaçada pela IA, buscaram a renda extra. "Muitos de nós estávamos realmente desesperados", disse um trabalhador. "Muitas pessoas realmente precisavam deste trabalho, eu incluso, e tentaram tirar o melhor de uma situação ruim."
Como a crescente classe global de trabalhadores de gig de IA, a maioria acreditava estar treinando seus próprios substitutos. Um artista falou de "vergonha e culpa internalizadas" por "contribuir diretamente para a automação de minhas esperanças e sonhos". Acrescentaram: "Como aspirante a humano, isso me deixa irritado com o sistema."
Glenn Danas, sócio do escritório de advocacia Clarkson, que representa trabalhadores de gig de IA em processos contra a Scale AI e plataformas similares, estima que centenas de milhares de pessoas em todo o mundo agora trabalhem para plataformas como a Outlier. O Guardian conversou com trabalhadores da Outlier, conhecidos como "taskers", no Reino Unido, EUA e Austrália.
Em entrevistas, taskers descreveram as humilhações agora familiares do trabalho de gig em IA: monitoramento constante e emprego instável e fragmentado. A Scale AI foi acusada de usar táticas de "isca e troca" – anunciando altos salários durante o recrutamento, depois oferecendo remuneração significativamente menor. A Scale AI se recusou a comentar sobre litígios em andamento, mas uma fonte disse que as taxas de pagamento só mudam se os trabalhadores optarem por ingressar em projetos diferentes e menos remunerados.
Taskers relataram ter que completar repetidas entrevistas de IA não remuneradas para se qualificar para certas tarefas; vários acreditavam que essas entrevistas eram reutilizadas para treinar IA. Todos disseram ser constantemente monitorados por uma plataforma chamada Hubstaff, que poderia capturar telas dos sites que visitavam enquanto trabalhavam. A fonte da Scale AI disse que o Hubstaff é usado para garantir pagamento preciso, não para "monitorar ativamente" os taskers.
Vários taskers descreveram ter sido solicitados a transcrever áudio pornográfico ou rotular imagens de animais mortos ou fezes de cachorro. Um estudante de doutorado disse que teve que rotular um diagrama de genitália infantil. Outros transcreveram chamadas policiais descrevendo incidentes violentos.
"Já nos haviam dito antes que... 'Não haveria nudez nesta missão. Comportamento apropriado, nada de violência gráfica, como sangue'", disse o estudante. "Mas então eu recebia uma transcrição de áudio para pornografia, ou haveria apenas clipes aleatórios de pessoas vomitando por algum motivo."
O Guardian revisou vídeos e capturas de tela de algumas tarefas que a Outlier exigia que seus trabalhadores realizassem. Estas incluíam fotos de fezes de cachorro e prompts como: "O que você faria se um detento se recusasse a seguir ordens em uma instituição correcional?"
Uma fonte da Scale AI afirmou que a empresa encerra tarefas se conteúdo inadequado for sinalizado e que os trabalhadores não são obrigados a continuar com tarefas que os deixem desconfortáveis. A fonte acrescentou que a Scale AI não assume projetos envolvendo material de abuso sexual infantil ou pornografia.
Trabalhadores da Outlier indicaram que havia uma expectativa de coleta de dados de mídia social. Sete taskers descreveram vasculhar contas de Instagram e Facebook de outras pessoas, marcando indivíduos por nome, localização e amigos. Algumas tarefas envolviam treinar IA em contas de pessoas menores de 18 anos. As atribuições eram estruturadas para exigir novos dados ainda não carregados por outros trabalhadores, levando-os a se aprofundar em mais contas de mídia social.
O Guardian viu uma dessas tarefas exigindo que trabalhadores selecionassem fotos de contas de Facebook de indivíduos e as ordenassem sequencialmente pela idade da pessoa na foto.
Vários taskers consideraram essas tarefas perturbadoras; um tentou completá-las usando apenas fotos de celebridades e figuras públicas. "Fiquei desconfortável incluindo fotos de crianças e coisas assim, mas os materiais de treinamento teriam crianças", disse um trabalhador.
"Eu não usei amigos ou familiares para enviar tarefas para a IA", disse outro. "Eu entendo que não gosto disso eticamente."
A fonte da Scale AI disse que os taskers não revisavam contas privadas de mídia social e não tinha conhecimento de tarefas envolvendo rotular idades ou relacionamentos pessoais de indivíduos. Acrescentou que a Scale AI não assume projetos com conteúdo sensível explícito relacionado a crianças, mas usa dados públicos de mídia social de crianças. Os trabalhadores não faziam login em contas pessoais do Facebook ou Instagram para completar essas tarefas.
Para outra tarefa, taskers descreveram coletar imagens de obras de arte protegidas por direitos autorais. Semelhante ao treinamento de mídia social, a tarefa exigia entrada constante de novos dados – aparentemente para treinar uma IA a produzir suas próprias imagens artísticas. À medida que os trabalhadores esgotavam as opções, recorriam às contas de mídia social de artistas e criadores.
O Guardian viu documentação dessa tarefa, que incluía pinturas geradas por IA de "um cuidador nativo americano" e a instrução: "NÃO use imagens geradas por IA. Selecione apenas obras de arte desenhadas, pintadas ou ilustradas à mão criadas por artistas humanos."
A fonte da Scale AI disse que a empresa não pede que colaboradores usem obras de arte protegidas por direitos autorais para completar tarefas e recusa trabalhos que violem esse padrão.
Taskers também expressaram incerteza sobre o que poderiam estar treinando a IA a fazer e como seus envios seriam usados.
"Realmente parece que rotular diagramas é algo que uma IA já pode fazer, então estou muito curioso sobre por que precisamos de coisas como animais mortos", disse um.
Os clientes da Scale AI incluíram grandes empresas de tecnologia como Google, Meta e OpenAI, bem como o Departamento de Defesa dos EUA e o governo do Catar. A empresa atende a uma necessidade crescente à medida que os modelos de IA se expandem: por novos dados rotulados para treiná-los.
Taskers descreveram interagir com ChatGPT e Claude ou usar dados da Meta para completar tarefas; alguns pensaram que poderiam estar treinando o novo modelo da Meta, Avocado.
Meta e Anthropic não responderam a um pedido de comentário. A OpenAI afirmou que parou de trabalhar com a Scale AI em junho de 2025 e que seu "código de conduta de fornecedores estabelece expectativas claras para o tratamento ético e justo de todos".
A maioria dos taskers com quem o Guardian conversou continua a aceitar trabalho pela plataforma Outlier. A renda é inconsistente e às vezes há cortes em larga escala. No entanto, com a era da IA se aproximando rapidamente, sentem que pode haver poucas alternativas.
"Tenho que permanecer otimista sobre a IA porque a perspectiva, caso contrário, não é boa", disse um trabalhador. "Então acredito que as coisas eventualmente vão se resolver."
Um porta-voz da Scale AI declarou: "A Outlier oferece trabalho flexível baseado em projetos com compensação clara. Os colaboradores decidem quando e quanto se envolver, e as oportunidades flutuam com base na demanda do projeto. Frequentemente ouvimos de indivíduos altamente qualificados que apreciam a flexibilidade e a chance de usar sua expertise em nossa plataforma."
Perguntas Frequentes
Perguntas Frequentes Sobre Coleta de Dados para Treinamento de IA
Aviso Legal Estas FAQ abordam uma prática relatada de usar dados online publicamente disponíveis para treinar inteligência artificial Os exemplos específicos em sua consulta são usados aqui como categorias ilustrativas da vasta gama de conteúdo da internet que pode ser coletado Estas FAQ visam fornecer informações factuais claras sobre o processo geral
Perguntas de Nível Iniciante
1 O que são "taskers" neste contexto
"Taskers" é um termo informal frequentemente usado para descrever os trabalhadores ou sistemas automatizados responsáveis por coletar e rotular vastas quantidades de dados online Sua tarefa é reunir esses dados para que possam ser usados para treinar modelos de IA
2 Por que uma empresa de IA precisa desse tipo de dados
Modelos de IA especialmente aqueles que geram ou entendem imagens e texto aprendem analisando conjuntos de dados massivos e diversos Para lidar com o mundo real eles precisam de exemplos de tudo sobre o que as pessoas falam postam e pesquisam online desde fotos cotidianas de mídia social até conteúdo mais nicho ou explícito Isso ajuda a IA a entender contexto reconhecer objetos e gerar respostas relevantes
3 Meus dados privados de mídia social estão sendo coletados
Geralmente empresas de IA afirmam treinar seus modelos com informações publicamente disponíveis Isso normalmente significa conteúdo que você postou com configurações de privacidade públicas Mensagens privadas contas privadas ou conteúdo protegido por senha não devem fazer parte desses conjuntos de dados Sempre verifique suas configurações de privacidade nas plataformas sociais
4 O que significa "raspar" a internet
Web scraping é o uso de ferramentas automatizadas para navegar sistematicamente em sites e copiar texto imagens e metadados publicamente disponíveis É como uma versão muito rápida e automatizada de copiar e colar informações
5 Isso é legal
A legalidade é complexa e varia conforme a jurisdição Muitas vezes opera em uma área cinzenta regida pelos Termos de Serviço de um site e pela lei de direitos autorais Muitas empresas se baseiam no argumento de que usar dados publicamente disponíveis para treinamento de IA se enquadra no uso justo mas isso está sendo ativamente debatido e contestado em tribunais em todo o mundo
Perguntas Avançadas e Práticas
6 Por que uma IA precisaria ver conteúdo ofensivo ou perturbador
Para moderar conteúdo com segurança e eficácia ou responder perguntas sobre tópicos sensíveis uma IA deve ser capaz de reconhecê-los Treinar com tais dados ajuda a