Porn, dog poop, and social media photos: the "taskers" who are scraping the internet for Meta's AI company.

Porn, dog poop, and social media photos: the "taskers" who are scraping the internet for Meta's AI company.

Ett företag som delvis ägs av Meta har betalat tiotusentals människor för att träna artificiell intelligens genom att gå igenom Instagram-konton, samla in upphovsrättsskyddat material och transkribera pornografiska ljudinspelningar, kan The Guardian avslöja.

Scale AI, som till 49 procent kontrolleras av Mark Zuckerbergs sociala medieföretag, rekryterade experter inom områden som medicin, fysik och ekonomi – förment för att förfina avancerade AI-system via en plattform kallad Outlier. Dess webbplats annonserar flexibelt arbete för högkvalificerade individer och uppmanar dem att "Bli experten som AI lär sig av."

Men arbetare på plattformen säger att de har dragits in i att skrapa ett brett spektrum av personuppgifter från andra människor – en praxis de beskriver som moraliskt problematisk och långt ifrån att förfina högklassig AI.

Outlier drivs av Scale AI, ett företag som har kontrakt med Pentagon och amerikanska försvarsleverantörer. Dess VD, Alexandr Wang, som också är Metas chef för AI, betecknades av Forbes som "världens yngsta självgjorda miljardär." Dess tidigare verkställande direktör, Michael Kratsios, tjänstgjorde som vetenskapsrådgivare åt den tidigare presidenten Donald Trump.

En amerikansk Outlier-uppdragstagare sa att användare av Meta-plattformar som Facebook och Instagram skulle bli förvånade över att få veta hur deras kontodata – inklusive bilder på sig själva och sina vänner – samlas in. "Jag tror inte folk förstod att det skulle finnas någon vid ett skrivbord i en slumpmässig delstat, som tittar på din [sociala medie]-profil och använder den för att generera AI-data," sa de.

The Guardian har talat med 10 personer som har arbetat för Outlier med att träna AI-system, några i över ett år. Många hade andra jobb som journalister, forskarstuderande, lärare eller bibliotekarier. Men i en ekonomi som alltmer hotas av AI sökte de extra inkomst. "Många av oss var verkligen desperata," sa en arbetare. "Många behövde verkligen det här jobbet, jag själv inkluderad, och försökte göra det bästa av en dålig situation."

Som den växande globala klassen av AI-gigarbetare trodde de flesta att de tränade sina egna ersättare. En konstnär talade om "internaliserad skam och skuld" för att "bidra direkt till automatiseringen av mina förhoppningar och drömmar." De tillade: "Som en strävande människa gör det mig arg på systemet."

Glenn Danas, partner på advokatbyrån Clarkson som representerar AI-gigarbetare i stämningar mot Scale AI och liknande plattformar, uppskattar att hundratusentals människor världen över nu arbetar för plattformar som Outlier. The Guardian har talat med Outlier-arbetare, kallade "taskers", i Storbritannien, USA och Australien.

I intervjuer beskrev taskers de nu välbekanta förödmjukelserna med AI-gigarbete: konstant övervakning och instabilt, styckvis arbete. Scale AI har anklagats för att använda "lockbete-taktik" – annonsera höga löner under rekrytering, sedan erbjuda betydligt lägre betalning. Scale AI vägrade kommentera pågående rättsprocesser, men en källa sa att ersättningsnivåer endast ändras om arbetare väljer att gå med i olika, lägre betalda projekt.

Taskers rapporterade att de var tvungna att genomföra upprepade, obetalda AI-intervjuer för att kvalificera sig för vissa uppdrag; flera trodde att dessa intervjuer återanvändes för att träna AI. Alla sa att de ständigt övervakades via en plattform kallad Hubstaff, som kunde ta skärmbilder av webbplatser de besökte under arbetet. Scale AI-källan sa att Hubstaff används för att säkerställa korrekt betalning, inte för att "aktivt övervaka" taskers.

Flera taskers beskrev att de blivit ombedda att transkribera pornografiska ljudinspelningar eller märka bilder på döda djur eller hundbajs. En doktorand sa att de var tvungna att märka en diagram över spädbarns könsorgan. Andra transkriberade polissamtal som beskrev våldsamma incidenter.

"Vi hade redan blivit tillsagda innan att... 'Det kommer inte finnas någon nakenhet i detta uppdrag. Lämpligt beteende, inget blodigt,'" sa studenten. "Men sedan skulle jag få en ljudtranskript för porr, eller det skulle bara vara slumpmässiga klipp av människor som kräks av någon anledning."

The Guardian har granskat videor och skärmbilder av vissa uppgifter Outlier krävde att sina arbetare skulle utföra. Dessa inkluderade bilder på hundbajs och uppmaningar som: "Vad skulle du göra om en intern vägrade följa order i en kriminalvårdsanstalt?"

En källa från Scale AI uppgav att företaget stänger ner uppgifter om olämpligt innehåll flaggas och att arbetare inte är skyldiga att fortsätta med uppgifter som gör dem obekväma. Källan tillade att Scale AI inte tar på sig projekt som involverar material om sexuella övergrepp mot barn eller pornografi.

Outlier-arbetare indikerade att det fanns en förväntan på att skrapa sociala medier. Sju taskers beskrev att de gick igenom andras Instagram- och Facebook-konton, märkte individer efter namn, plats och vänner. Vissa uppgifter involverade att träna AI på konton av personer under 18. Uppdragen var strukturerade för att kräva ny data som ännu inte laddats upp av andra arbetare, vilket pressade dem att gräva djupare i fler människors sociala medie-konton.

The Guardian har sett ett sådant uppdrag som krävde att arbetare valde bilder från individers Facebook-konton och ordnade dem sekventiellt efter åldern på personen på bilden.

Flera taskers tyckte dessa uppdrag var oroande; en försökte slutföra dem med endast bilder på kändisar och offentliga personer. "Jag var obekväm med att inkludera bilder på barn och sånt, men utbildningsmaterialet skulle ha barn i sig," sa en arbetare.

"Jag använde inga vänner eller familj för att skicka in uppgifter till AI:n," sa en annan. "Jag förstår att jag inte gillar det etiskt."

Scale AI-källan sa att taskers inte granskade privata sociala medie-konton och var inte medveten om uppdrag som involverade att märka individers ålder eller personliga relationer. De tillade att Scale AI inte tar på sig projekt med explicit känsligt innehåll relaterat till barn men använder barns offentliga sociala medie-data. Arbetare loggade inte in på personliga Facebook- eller Instagram-konton för att slutföra dessa uppgifter.

För ett annat uppdrag beskrev taskers att de samlade in bilder på upphovsrättsskyddat konstverk. Liknande sociala medie-träningen krävde uppdraget konstant ny input – uppenbarligen för att träna en AI att producera sina egna konstnärliga bilder. När arbetare fick slut på alternativ vände de sig till konstnärers och skapares sociala medie-konton.

The Guardian har sett dokumentation av detta uppdrag, som inkluderade AI-genererade målningar av "en ursprungsamerikansk vårdare" och instruktionen: "ANVÄND INTE AI-genererade bilder. Välj endast handtecknade, målade eller illustrerade konstverk skapade av mänskliga konstnärer."

Scale AI-källan sa att företaget inte ber bidragsgivare att använda upphovsrättsskyddat konstverk för att slutföra uppdrag och avböjer arbete som bryter mot denna standard.

Taskers uttryckte också osäkerhet om vad de kanske tränade AI:n att göra och hur deras inlämningar skulle användas.

"Det verkar som att märka diagram är något en AI redan kan göra, så jag är verkligen nyfiken på varför vi behöver saker som döda djur," sa en.

Scale AI:s kunder har inkluderat stora teknikföretag som Google, Meta och OpenAI, samt USA:s försvarsdepartement och Qatars regering. Företaget tillgodoser ett växande behov när AI-modeller expanderar: för ny, märkt data för att träna dem.

Taskers beskrev att de interagerade med ChatGPT och Claude eller använde data från Meta för att slutföra uppdrag; några trodde att de kanske tränade Metas nya modell, Avocado.

Meta och Anthropic svarade inte på en begäran om kommentar. OpenAI uppgav att de slutade arbeta med Scale AI i juni 2025 och att deras "leverantörskod för etiskt beteende fastställer tydliga förväntningar på etisk och rättvis behandling av alla."

De flesta taskers som The Guardian talade med fortsätter att ta på sig arbete via Outlier-plattformen. Inkomsten är inkonsekvent, och det finns ibland storskaliga nedskärningar. Ändå, med AI-eran som snabbt närmar sig, känner de att det kan finnas få alternativ.

"Jag måste hålla mig optimistisk om AI för utsikterna är annars inte bra," sa en arbetare. "Så jag tror att saker kommer att ordna sig till slut."

En talesperson för Scale AI uppgav: "Outlier erbjuder flexibelt, projektbaserat arbete med tydlig ersättning. Bidragsgivare bestämmer när och hur mycket de engagerar sig, och möjligheter fluktuerar baserat på projektets efterfrågan. Vi hör ofta från högkvalificerade individer som uppskattar flexibiliteten och chansen att använda sin expertis på vår plattform."

Vanliga frågor
Vanliga frågor om datainsamling för AI-träning

Ansvarsfriskrivning: Denna FAQ behandlar en rapporterad praxis att använda offentligt tillgänglig onlinedata för att träna artificiell intelligens. De specifika exemplen i din förfrågan används här som illustrativa kategorier av det breda spektrumet av internetinnehåll som kan skrapas. Denna FAQ syftar till att ge tydlig faktamässig information om den generella processen.

Frågor på nybörjarnivå

1. Vad är "taskers" i detta sammanhang?
"Taskers" är en informell term som ofta används för att beskriva de arbetare eller automatiserade system som ansvarar för att samla in och märka stora mängder onlinedata. Deras uppgift är att samla denna data så att den kan användas för att träna AI-modeller.

2. Varför behöver ett AI-företag den här typen av data?
AI-modeller, särskilt de som genererar eller förstår bilder och text, lär sig genom att analysera enorma, mångsidiga dataset. För att hantera den verkliga världen behöver de exempel på allt som människor pratar om, publicerar och söker efter online – från vardagliga sociala medie-foton till mer nischat eller explicit innehåll. Detta hjälper AI:n att förstå sammanhang, känna igen objekt och generera relevanta svar.

3. Tas mina privata sociala medie-data?
Generellt säger AI-företag att de tränar sina modeller på offentligt tillgänglig information. Detta innebär vanligtvis innehåll du har publicerat med offentliga sekretessinställningar. Privata meddelanden, privata konton eller lösenordsskyddat innehåll bör inte ingå i dessa dataset. Kontrollera alltid dina sekretessinställningar på sociala plattformar.

4. Vad betyder "att skrapa internet"?
Webbskrapning är användningen av automatiserade verktyg för att systematiskt bläddra på webbplatser och kopiera offentligt tillgänglig text, bilder och metadata. Det är som en mycket snabb, automatiserad version av att kopiera och klistra in information.

5. Är detta lagligt?
Lagligheten är komplex och varierar beroende på jurisdiktion. Det rör sig ofta i en gråzon som styrs av en webbplats användarvillkor och upphovsrättslag. Många företag förlitar sig på argumentet att användning av offentligt tillgänglig data för AI-träning faller under rimligt bruk, men detta debatteras och utmanas aktivt i domstolar världen över.

Avancerade och praktiska frågor

6. Varför skulle en AI behöva se stötande eller störande innehåll?
För att säkert och effektivt kunna moderera innehåll eller svara på frågor om känsliga ämnen måste en AI kunna känna igen dem. Träning på sådan data hjälper AI:n...