Porn, dog poop, and social media photos: the “taskers” who are scraping the internet for Meta’s AI company.

Et firma, der delvist ejes af Meta, har betalt titusindvis af mennesker for at træne kunstig intelligens ved at gennemgå Instagram-konti, indsamle ophavsretsbeskyttet materiale og transskribere pornografisk lyd, kan Guardian afsløre.

Scale AI, som er 49% kontrolleret af Mark Zuckerbergs sociale medie-imperium, rekrutterede eksperter inden for områder som medicin, fysik og økonomi – angiveligt for at forfine avancerede AI-systemer gennem en platform kaldet Outlier. Dens hjemmeside reklamerer med fleksibelt arbejde for højt kvalificerede personer og inviterer dem til at "Bliv den ekspert, som AI lærer fra."

Dog siger arbejdere på platformen, at de er blevet trukket ind i at skrabe en bred vifte af personlige data fra andre mennesker – en praksis, de beskriver som moralsk foruroligende og langt fra at forfine højniveau-AI.

Outlier administreres af Scale AI, et firma, der har kontrakter med Pentagon og amerikanske forsvarsleverandører. Dens administrerende direktør, Alexandr Wang, som også er Metas chef for AI, blev kaldt af Forbes for "verdens yngste selvskabte milliardær." Dens tidligere administrerende direktør, Michael Kratsios, var videnskabsrådgiver for den tidligere præsident Donald Trump.

En amerikanskbaseret Outlier-udbyder sagde, at brugere af Meta-platforme som Facebook og Instagram ville blive overraskede over at få at vide, hvordan deres kontodata – inklusive billeder af dem selv og deres venner – bliver indsamlet. "Jeg tror ikke, folk forstod, at der ville være nogen ved et skrivebord i en tilfældig delstat, der kigger på din [sociale medie]-profil og bruger den til at generere AI-data," sagde de.

Guardian talte med 10 personer, der har arbejdet for Outlier med at træne AI-systemer, nogle i over et år. Mange havde andre jobs som journalister, kandidatstuderende, lærere eller bibliotekarer. Men i en økonomi, der i stigende grad trues af AI, søgte de den ekstra indkomst. "Mange af os var virkelig desperate," sagde en arbejder. "Mange mennesker havde virkelig brug for dette job, mig selv inkluderet, og forsøgte at gøre det bedste ud af en dårlig situation."

Som den voksende globale klasse af AI-gig-arbejdere troede de fleste, at de trænede deres egne erstatninger. En kunstner talte om "internaliseret skam og skyldfølelse" for at "bidrage direkte til automatiseringen af mine håb og drømme." De tilføjede: "Som et menneske med ambitioner gør det mig vred på systemet."

Glenn Danas, partner i advokatfirmaet Clarkson, som repræsenterer AI-gig-arbejdere i retssager mod Scale AI og lignende platforme, estimerer, at hundredtusindvis af mennesker over hele verden nu arbejder for platforme som Outlier. Guardian talte med Outlier-arbejdere, kendt som "taskere", i Storbritannien, USA og Australien.

I interviews beskrev taskere de nu velkendte ydmygelser ved AI-gig-arbejde: konstant overvågning og ustabil, stykvist beskæftigelse. Scale AI er blevet beskyldt for at bruge "lokkemad"-taktikker – at reklamere med høje lønninger under rekruttering, for derefter at tilbyde markant lavere løn. Scale AI afslog at kommentere på igangværende retssager, men en kilde sagde, at lønningerne kun ændres, hvis arbejdere vælger at deltage i andre, lavere betalte projekter.

Taskere rapporterede, at de måtte gennemføre gentagne, ubetalte AI-interviews for at kvalificere sig til visse opgaver; flere mente, at disse interviews blev genbrugt til at træne AI. Alle sagde, at de konstant blev overvåget gennem en platform kaldet Hubstaff, som kunne tage skærmbilleder af de hjemmesider, de besøgte under arbejdet. Scale AI-kilden sagde, at Hubstaff bruges til at sikre nøjagtig betaling, ikke til at "aktivt overvåge" taskere.

Flere taskere beskrev at blive bedt om at transskribere pornografisk lyd eller mærke billeder af døde dyr eller hundelort. En ph.d.-studerende sagde, at de måtte mærke et diagram over infantil kønsorganer. Andre transskriberede politi-opkald, der beskrev voldelige episoder.

"Vi var allerede blevet fortalt før, at der... 'Der ville ikke være nøgenhed i denne mission. Passende adfærd, ingen gore, som intet blod,' sagde studerende. 'Men så ville jeg få en lydtransskription til porno, eller der ville bare være tilfældige klip af folk, der kastede op af en eller anden grund.'"

Guardian har gennemgået videoer og skærmbilleder af nogle opgaver, Outlier krævede sine arbejdere udførte. Disse inkluderede billeder af hundelort og prompts som: "Hvad ville du gøre, hvis en indsat nægtede at følge ordrer i et korrektionsfacilitet?"

En kilde fra Scale AI oplyste, at firmaet lukker opgaver ned, hvis upassende indhold bliver markeret, og at arbejdere ikke er forpligtet til at fortsætte med opgaver, der gør dem ubehagelige til mode. Kilden tilføjede, at Scale AI ikke påtager sig projekter, der involverer materiale om seksuelt misbrug af børn eller pornografi.

Outlier-arbejdere indikerede, at der var en forventning om at skrabe sociale medier. Syv taskere beskrev at gennemsøge andres Instagram- og Facebook-konti, mærke enkelte personer efter navn, placering og venner. Nogle opgaver involverede at træne AI på konti af personer under 18. Opgaverne var struktureret til at kræve nye data, som endnu ikke var uploadet af andre arbejdere, hvilket pressede dem til at dykke dybere ned i flere menneskers sociale medie-konti.

Guardian har set en sådan opgave, der krævede, at arbejdere valgte billeder fra enkeltpersoners Facebook-konti og ordnede dem sekventielt efter alderen på personen på billedet.

Flere taskere fandt disse opgaver foruroligende; en forsøgte at fuldføre dem ved kun at bruge billeder af kendte og offentlige personer. "Jeg var ikke tryg ved at inkludere billeder af børn og sådan, men træningsmaterialerne ville have børn i sig," sagde en arbejder.

"Jeg brugte ikke nogen venner eller familie til at indsende opgaver til AI," sagde en anden. "Jeg forstår godt, at jeg ikke kan lide det etisk."

Scale AI-kilden sagde, at taskere ikke gennemså private sociale medie-konti og var ikke klar over opgaver, der involverede at mærke enkelte personers alder eller personlige relationer. De tilføjede, at Scale AI ikke påtager sig projekter med eksplicit følsomt indhold relateret til børn, men bruger børns offentlige sociale medie-data. Arbejdere loggede ikke ind på personlige Facebook- eller Instagram-konti for at fuldføre disse opgaver.

For en anden opgave beskrev taskere at høste billeder af ophavsretsbeskyttet kunstværk. Ligesom med træningen på sociale medier krævede opgaven konstant nyt input – tilsyneladende for at træne en AI til at producere sine egne kunstneriske billeder. Efterhånden som arbejderne løb tør for muligheder, vendte de sig mod sociale medie-konti for kunstnere og skabere.

Guardian har set dokumentation af denne opgave, som inkluderede AI-genererede malerier af "en indfødt amerikansk omsorgsperson" og instruktionen: "BRUG IKKE AI-genererede billeder. Vælg kun håndtegnede, malede eller illustrerede kunstværker skabt af menneskelige kunstnere."

Scale AI-kilden sagde, at firmaet ikke beder bidragyderne om at bruge ophavsretsbeskyttet kunstværk til at fuldføre opgaver og afslår arbejde, der overtræder denne standard.

Taskere udtrykte også usikkerhed om, hvad de muligvis trænede AI til at gøre, og hvordan deres indsendelser ville blive brugt.

"Det virker som om at mærke diagrammer er noget, en AI allerede kan gøre, så jeg er virkelig nysgerrig efter, hvorfor vi har brug for ting som døde dyr," sagde en.

Scale AI's kunder har inkluderet store teknologivirksomheder som Google, Meta og OpenAI, samt det amerikanske forsvarsministerium og Qatars regering. Firmaet imødekommer et voksende behov, efterhånden som AI-modeller udvides: for nye, mærkede data til at træne dem.

Taskere beskrev at interagere med ChatGPT og Claude eller bruge data fra Meta til at fuldføre opgaver; nogle troede, at de muligvis trænede Metas nye model, Avocado.

Meta og Anthropic reagerede ikke på en anmodning om kommentar. OpenAI oplyste, at de stoppede samarbejdet med Scale AI i juni 2025, og at deres "leverandørkodeks fastsætter klare forventninger til etisk og fair behandling af alle."

De fleste af de taskere, Guardian talte med, fortsætter med at påtage sig arbejde gennem Outlier-platformen. Indkomsten er inkonsistent, og der er nogle gange store nedskæringer. Alligevel, med AI-æraen, der hurtigt nærmer sig, føler de, at der måske er få alternativer.

"Jeg er nødt til at forblive optimistisk omkring AI, forudsigelsen er ellers ikke stor," sagde en arbejder. "Så jeg tror, at tingene til sidst vil løse sig."

En talsmand for Scale AI erklærede: "Outlier tilbyder fleksibelt, projektbaseret arbejde med klar kompensation. Bidragyderne beslutter, hvornår og hvor meget de vil engagere sig, og muligheder svinger baseret på projektets efterspørgsel. Vi hører ofte fra højt kvalificerede personer, der sætter pris på fleksibiliteten og chancen for at bruge deres ekspertise på vores platform."

Ofte stillede spørgsmål
OSS om dataindsamling til AI-træning

Ansvarsfraskrivelse: Denne OSS adresserer en rapporteret praksis med at bruge offentligt tilgængelige online-data til at træne kunstig intelligens. De specifikke eksempler i din forespørgsel bruges her som illustrative kategorier af det enorme udvalg af internetindhold, der kan blive skrabet. Denne OSS har til formål at give klar, faktuel information om den generelle proces.

Begynder-niveau spørgsmål

1. Hvad er taskere i denne sammenhæng?

Taskere er en uformel betegnelse, der ofte bruges til at beskrive arbejderne eller automatiserede systemer, der er ansvarlige for at indsamle og mærke enorme mængder af online-data. Deres opgave er at samle disse data, så de kan bruges til at træne AI-modeller.

2. Hvorfor har et AI-firma brug for denne slags data?

AI-modeller, især dem, der genererer eller forstår billeder og tekst, lærer ved at analysere enorme, forskelligartede datasæt. For at håndtere den virkelige verden har de brug for eksempler på alt, hvad folk taler om, poster og søger efter online – fra hverdagens sociale medie-billeder til mere niche eller eksplicit indhold. Dette hjælper AI'en med at forstå kontekst, genkende objekter og generere relevante svar.

3. Bliver mine private sociale medie-data taget?

Generelt oplyser AI-virksomheder, at de træner deres modeller på offentligt tilgængelige oplysninger. Dette betyder typisk indhold, du har postet med offentlige privatindstillinger. Private beskeder, private konti eller adgangskodebeskyttet indhold bør ikke være en del af disse datasæt. Tjek altid dine privatindstillinger på sociale platforme.

4. Hvad betyder det at skrabe internettet?

Webskrabning er brugen af automatiserede værktøjer til systematisk at gennemse hjemmesider og kopiere offentligt tilgængelig tekst, billeder og metadata. Det er som en meget hurtig, automatiseret version af at kopiere og indsætte information.

5. Er dette lovligt?

Lovligheden er kompleks og varierer efter jurisdiktion. Det opererer ofte i en gråzone styret af en hjemmesides vilkår for service og ophavsretslovgivning. Mange virksomheder støtter sig til argumentet om, at brugen af offentligt tilgængelige data til AI-træning falder under fair brug, men dette debatteres og udfordres aktivt i retssale verden over.

Avancerede & praktiske spørgsmål

6. Hvorfor skulle en AI have brug for at se stødende eller foruroligende indhold?

For sikkert og effektivt at moderere indhold eller besvare spørgsmål om følsomme emner, skal en AI være i stand til at genkende dem. Træning på sådanne data hjælper AI'en med at...

Related Posts