Une entreprise partiellement détenue par Meta a payé des dizaines de milliers de personnes pour entraîner l'intelligence artificielle en épluchant des comptes Instagram, en collectant du matériel protégé par le droit d'auteur et en transcrivant des fichiers audio pornographiques, révèle le Guardian.
Scale AI, contrôlée à 49% par l'empire des médias sociaux de Mark Zuckerberg, a recruté des experts dans des domaines comme la médecine, la physique et l'économie – officiellement pour perfectionner des systèmes d'IA avancés via une plateforme appelée Outlier. Son site web vante un travail flexible pour des personnes hautement qualifiées, les invitant à "Devenir l'expert dont l'IA s'inspire".
Cependant, les travailleurs sur la plateforme affirment avoir été entraînés à extraire une large gamme de données personnelles d'autres individus – une pratique qu'ils décrivent comme moralement troublante et très éloignée du perfectionnement d'une IA de haut niveau.
Outlier est gérée par Scale AI, une société qui détient des contrats avec le Pentagone et des sous-traitants de la défense américaine. Son PDG, Alexandr Wang, également directeur de l'IA chez Meta, a été qualifié par Forbes de "plus jeune milliardaire self-made du monde". Son ancien directeur général, Michael Kratsios, a été conseiller scientifique de l'ancien président Donald Trump.
Un contractant américain d'Outlier a déclaré que les utilisateurs des plateformes Meta comme Facebook et Instagram seraient surpris d'apprendre comment les données de leurs comptes – y compris les photos d'eux-mêmes et de leurs amis – sont collectées. "Je ne pense pas que les gens comprenaient qu'il y aurait quelqu'un à un bureau dans un État au hasard, regardant votre profil [de réseaux sociaux] et l'utilisant pour générer des données d'IA", ont-ils dit.
Le Guardian a interrogé 10 personnes ayant travaillé pour Outlier à l'entraînement de systèmes d'IA, certaines depuis plus d'un an. Beaucoup occupaient d'autres emplois comme journalistes, étudiants diplômés, enseignants ou bibliothécaires. Mais dans une économie de plus en plus menacée par l'IA, ils recherchaient un revenu supplémentaire. "Beaucoup d'entre nous étaient vraiment désespérés", a déclaré un travailleur. "Beaucoup de gens avaient vraiment besoin de ce travail, moi y compris, et ont essayé de tirer le meilleur parti d'une mauvaise situation."
Comme la classe grandissante mondiale des travailleurs à la tâche de l'IA, la plupart pensaient qu'ils formaient leurs propres remplaçants. Un artiste a parlé de "honte et culpabilité intériorisées" pour "contribuer directement à l'automatisation de mes espoirs et rêves". Il a ajouté : "En tant qu'être humain aspirant, cela me met en colère contre le système."
Glenn Danas, associé du cabinet d'avocats Clarkson, qui représente des travailleurs à la tâche de l'IA dans des poursuites contre Scale AI et des plateformes similaires, estime que des centaines de milliers de personnes dans le monde travaillent désormais pour des plateformes comme Outlier. Le Guardian a parlé avec des travailleurs d'Outlier, appelés "taskers", au Royaume-Uni, aux États-Unis et en Australie.
Lors d'entretiens, les taskers ont décrit les humiliations désormais familières du travail à la tâche dans l'IA : surveillance constante et emploi instable, par petits morceaux. Scale AI a été accusée d'utiliser des tactiques de "appât et changement" – annonçant des salaires élevés lors du recrutement, puis proposant une rémunération nettement inférieure. Scale AI a refusé de commenter les litiges en cours, mais une source a déclaré que les taux de rémunération ne changent que si les travailleurs choisissent de rejoindre des projets différents, moins bien payés.
Les taskers ont rapporté devoir passer des entretiens d'IA répétés et non rémunérés pour se qualifier à certaines missions ; plusieurs pensaient que ces entretiens étaient réutilisés pour entraîner l'IA. Tous ont dit être constamment surveillés via une plateforme appelée Hubstaff, qui pouvait prendre des captures d'écran des sites web visités pendant le travail. La source de Scale AI a déclaré que Hubstaff est utilisé pour garantir un paiement précis, et non pour "surveiller activement" les taskers.
Plusieurs taskers ont décrit avoir dû transcrire des fichiers audio pornographiques ou étiqueter des images d'animaux morts ou d'excréments de chien. Un doctorant a déclaré avoir dû étiqueter un diagramme de parties génitales infantiles. D'autres ont transcrit des appels de police décrivant des incidents violents.
"On nous avait déjà dit auparavant que... 'Il n'y aurait pas de nudité dans cette mission. Comportement approprié, pas de gore, comme pas de sang'", a déclaré l'étudiant. "Mais ensuite je recevais une transcription audio pour du porno, ou il y avait juste des clips aléatoires de gens vomissant pour une raison quelconque."
Le Guardian a examiné des vidéos et captures d'écran de certaines tâches qu'Outlier exigeait de ses travailleurs. Celles-ci incluaient des photos d'excréments de chien et des invites telles que : "Que feriez-vous si un détenu refusait d'obéir aux ordres dans un établissement correctionnel ?"
Une source de Scale AI a déclaré que l'entreprise interrompt les tâches si un contenu inapproprié est signalé et que les travailleurs ne sont pas obligés de poursuivre les tâches qui les mettent mal à l'aise. La source a ajouté que Scale AI ne prend pas en charge les projets impliquant du matériel d'abus sexuel sur enfants ou de la pornographie.
Les travailleurs d'Outlier ont indiqué qu'il y avait une attente d'extraction de données des réseaux sociaux. Sept taskers ont décrit l'exploration de comptes Instagram et Facebook d'autres personnes, étiquetant les individus par nom, localisation et amis. Certaines tâches impliquaient l'entraînement de l'IA sur des comptes de personnes de moins de 18 ans. Les missions étaient structurées pour exiger de nouvelles données pas encore téléchargées par d'autres travailleurs, les poussant à explorer les comptes de médias sociaux de plus de personnes.
Le Guardian a vu une telle tâche exigeant des travailleurs de sélectionner des photos des comptes Facebook d'individus et de les ordonner séquentiellement selon l'âge de la personne sur la photo.
Plusieurs taskers ont trouvé ces missions dérangeantes ; l'un a essayé de les réaliser en utilisant uniquement des photos de célébrités et de personnalités publiques. "J'étais mal à l'aise d'inclure des photos d'enfants et autres, mais le matériel de formation en contenait", a déclaré un travailleur.
"Je n'ai utilisé aucun ami ou famille pour soumettre des tâches à l'IA", a dit un autre. "Je comprends bien que cela ne me plaît pas sur le plan éthique."
La source de Scale AI a déclaré que les taskers ne consultaient pas de comptes de médias sociaux privés et n'avait pas connaissance de tâches impliquant l'étiquetage de l'âge des individus ou de leurs relations personnelles. Elle a ajouté que Scale AI ne prend pas en charge les projets avec un contenu sensible explicite lié aux enfants, mais utilise les données publiques des médias sociaux des enfants. Les travailleurs ne se connectaient pas à des comptes Facebook ou Instagram personnels pour accomplir ces tâches.
Pour une autre mission, les taskers ont décrit la collecte d'images d'œuvres d'art protégées par le droit d'auteur. Similaire à l'entraînement sur les médias sociaux, la tâche exigeait constamment de nouvelles entrées – apparemment pour entraîner une IA à produire ses propres images artistiques. Alors que les travailleurs épuisaient les options, ils se tournaient vers les comptes de médias sociaux d'artistes et de créateurs.
Le Guardian a vu la documentation de cette mission, qui incluait des peintures générées par IA représentant "un soignant amérindien" et l'instruction : "N'utilisez PAS d'images générées par IA. Sélectionnez uniquement des œuvres d'art dessinées à la main, peintes ou illustrées créées par des artistes humains."
La source de Scale AI a déclaré que l'entreprise ne demande pas aux contributeurs d'utiliser des œuvres d'art protégées par le droit d'auteur pour accomplir les missions et refuse les travaux violant cette norme.
Les taskers ont également exprimé une incertitude quant à ce pour quoi ils pourraient entraîner l'IA et comment leurs soumissions seraient utilisées.
"Il semble bien que l'étiquetage de diagrammes soit quelque chose qu'une IA peut déjà faire, donc je suis vraiment curieux de savoir pourquoi nous avons besoin de choses comme des animaux morts", a déclaré l'un d'eux.
Les clients de Scale AI ont inclus des grandes entreprises technologiques comme Google, Meta et OpenAI, ainsi que le département de la Défense des États-Unis et le gouvernement du Qatar. L'entreprise répond à un besoin croissant à mesure que les modèles d'IA se développent : celui de nouvelles données étiquetées pour les entraîner.
Les taskers ont décrit interagir avec ChatGPT et Claude ou utiliser des données de Meta pour accomplir des missions ; certains pensaient qu'ils pourraient entraîner le nouveau modèle de Meta, Avocado.
Meta et Anthropic n'ont pas répondu à une demande de commentaire. OpenAI a déclaré avoir cessé de travailler avec Scale AI en juin 2025 et que son "code de conduite des fournisseurs établit des attentes claires pour un traitement éthique et équitable de tous".
La plupart des taskers avec lesquels le Guardian s'est entretenu continuent à accepter du travail via la plateforme Outlier. Les revenus sont irréguliers, et il y a parfois des réductions à grande échelle. Pourtant, avec l'ère de l'IA qui approche rapidement, ils estiment qu'il pourrait y avoir peu d'alternatives.
"Je dois rester optimiste quant à l'IA parce que les perspectives sinon ne sont pas géniales", a déclaré un travailleur. "Donc je crois que les choses finiront par s'arranger."
Un porte-parole de Scale AI a déclaré : "Outlier offre un travail flexible, basé sur des projets, avec une rémunération claire. Les contributeurs décident quand et à quel point s'engager, et les opportunités fluctuent selon la demande des projets. Nous entendons souvent des personnes hautement qualifiées qui apprécient la flexibilité et la chance d'utiliser leur expertise sur notre plateforme."
Foire Aux Questions
FAQ sur la collecte de données pour l'entraînement de l'IA
Avertissement Cette FAQ aborde une pratique rapportée d'utilisation de données en ligne publiquement disponibles pour entraîner l'intelligence artificielle. Les exemples spécifiques de votre requête sont utilisés ici comme catégories illustratives de la vaste gamme de contenu internet pouvant être extrait. Cette FAQ vise à fournir des informations factuelles claires sur le processus général.
Questions de niveau débutant
1 Que sont les "taskers" dans ce contexte ?
"Taskers" est un terme informel souvent utilisé pour décrire les travailleurs ou systèmes automatisés responsables de la collecte et de l'étiquetage de vastes quantités de données en ligne. Leur tâche est de rassembler ces données afin qu'elles puissent être utilisées pour entraîner des modèles d'IA.
2 Pourquoi une entreprise d'IA a-t-elle besoin de ce type de données ?
Les modèles d'IA, en particulier ceux qui génèrent ou comprennent des images et du texte, apprennent en analysant des ensembles de données massifs et diversifiés. Pour gérer le monde réel, ils ont besoin d'exemples de tout ce dont les gens parlent, publient et recherchent en ligne – des photos quotidiennes sur les médias sociaux aux contenus plus de niche ou explicites. Cela aide l'IA à comprendre le contexte, reconnaître les objets et générer des réponses pertinentes.
3 Mes données privées des médias sociaux sont-elles prises ?
Généralement, les entreprises d'IA déclarent qu'elles entraînent leurs modèles sur des informations publiquement disponibles. Cela signifie typiquement le contenu que vous avez publié avec des paramètres de confidentialité publics. Les messages privés, les comptes privés ou le contenu protégé par mot de passe ne devraient pas faire partie de ces ensembles de données. Vérifiez toujours vos paramètres de confidentialité sur les plateformes sociales.
4 Que signifie "extraire" (scraper) l'internet ?
L'extraction web (web scraping) est l'utilisation d'outils automatisés pour parcourir systématiquement des sites web et copier du texte, des images et des métadonnées publiquement disponibles. C'est comme une version très rapide et automatisée de copier-coller des informations.
5 Est-ce légal ?
La légalité est complexe et varie selon les juridictions. Cela opère souvent dans une zone grise régie par les Conditions d'Utilisation d'un site web et le droit d'auteur. De nombreuses entreprises s'appuient sur l'argument que l'utilisation de données publiquement disponibles pour l'entraînement de l'IA relève de l'usage loyal (fair use), mais cela fait l'objet de débats actifs et de contestations dans les tribunaux du monde entier.
Questions avancées et pratiques
6 Pourquoi une IA aurait-elle besoin de voir du contenu offensant ou perturbant ?
Pour modérer le contenu ou répondre à des questions sur des sujets sensibles de manière sûre et efficace, une IA doit être capable de les reconnaître. L'entraînement sur de telles données aide l'IA...