Porn, dog poop, and social media photos: the “taskers” who are scraping the internet for Meta’s AI company.

O companie parțial deținută de Meta a plătit zeci de mii de oameni pentru a antrena inteligența artificială prin analizarea conturilor de Instagram, colectarea de materiale cu drept de autor și transcrierea de audio pornografic, dezvăluie The Guardian.

Scale AI, care este controlată în proporție de 49% de imperiul de social media al lui Mark Zuckerberg, a recrutat experți în domenii precum medicină, fizică și economie – aparent pentru a perfecționa sisteme avansate de IA printr-o platformă numită Outlier. Site-ul său web promovează muncă flexibilă pentru persoanele cu calificare ridicată, invitându-le să „Deveniți expertul de la care învață IA”.

Cu toate acestea, lucrătorii de pe platformă spun că au fost atrași să colecteze o gamă largă de date personale de la alți oameni – o practică pe care o descriu ca fiind problematică din punct de vedere moral și departe de perfecționarea IA de nivel înalt.

Outlier este gestionată de Scale AI, o companie care are contracte cu Pentagonul și cu contractori de apărare americani. CEO-ul său, Alexandr Wang, care este și directorul general de IA al Meta, a fost etichetat de Forbes drept „cel mai tânăr miliardar self-made din lume”. Fostul său director general, Michael Kratsios, a fost consilier științific al fostului președinte Donald Trump.

Un contractor Outlier din SUA a spus că utilizatorii platformelor Meta precum Facebook și Instagram ar fi surprinși să afle cum sunt colectate datele conturilor lor – inclusiv fotografiile lor și ale prietenilor lor. „Nu cred că oamenii și-au dat seama că va fi cineva la un birou într-un stat oarecare, uitându-se la profilul tău [de social media] și folosindu-l pentru a genera date de IA”, au spus ei.

The Guardian a vorbit cu 10 persoane care au lucrat pentru Outlier antrenând sisteme de IA, unele de peste un an. Mulți aveau alte slujbe ca jurnaliști, studenți la masterat, profesori sau bibliotecari. Dar într-o economie din ce în ce mai amenințată de IA, ei au căutat venituri suplimentare. „Mulți dintre noi erau cu adevărat disperați”, a spus un lucrător. „Mulți oameni aveau nevoie cu adevărat de acest loc de muncă, inclusiv eu, și am încercat să fac tot posibilul într-o situație neplăcută”.

La fel ca în cazul clasei globale în creștere a lucrătorilor gig în domeniul IA, majoritatea credeau că își antrenează propriii înlocuitori. Un artist a vorbit despre „rușinea și vinovăția internalizată” pentru „contribuția directă la automatizarea speranțelor și viselor mele”. Au adăugat: „Ca om aspirant, mă face să mă enervez pe sistem”.

Glenn Danas, un partener la firma de avocatură Clarkson, care reprezintă lucrătorii gig în domeniul IA în procesele împotriva Scale AI și a unor platforme similare, estimează că sute de mii de oameni din întreaga lume lucrează acum pentru platforme precum Outlier. The Guardian a vorbit cu lucrători Outlier, cunoscuți sub numele de „taskeri”, din Marea Britanie, SUA și Australia.

În interviuri, taskerii au descris umilințele acum familiare ale muncii gig în domeniul IA: monitorizarea constantă și angajarea instabilă, fragmentată. Scale AI a fost acuzată că folosește tactici de „momeală și înlocuire” – promițând salarii mari în timpul recrutării, apoi oferind remunerații semnificativ mai mici. Scale AI a refuzat să comenteze asupra litigiilor în curs, dar o sursă a spus că ratele de plată se schimbă doar dacă lucrătorii aleg să se alăture unor proiecte diferite, mai puțin plătite.

Taskerii au raportat că au trebuit să completeze interviuri repetate, neplătite cu IA pentru a se califica pentru anumite sarcini; mai mulți au crezut că aceste interviuri au fost refolosite pentru a antrena IA. Toți au spus că sunt monitorizați în mod constant printr-o platformă numită Hubstaff, care putea face capturi de ecran ale site-urilor pe care le vizitau în timp ce lucrau. Sursa Scale AI a spus că Hubstaff este folosit pentru a asigura o plată corectă, nu pentru a „monitoriza activ” taskerii.

Mai mulți taskeri au descris cum li s-a cerut să transcrie audio pornografic sau să eticheteze imagini cu animale moarte sau fecale de câine. Un student la doctorat a spus că a trebuit să eticheteze o diagramă a organelor genitale infantile. Alții au transcrit apeluri la poliție care descriau incidente violente.

„Ni s-a spus deja înainte că... „Nu va exista nuditate în această misiune. Comportament adecvat, fără violență, cum ar fi fără sânge”, a spus studentul. „Dar apoi aș primi o transcriere audio pentru pornografie, sau ar fi doar clipuri aleatorii cu oameni care vomită din nu știu ce motiv”.

The Guardian a analizat videoclipuri și capturi de ecran ale unor sarcini pe care Outlier le-a cerut lucrătorilor săi să le execute. Acestea includeau fotografii cu fecale de câine și solicitări precum: „Ce ați face dacă un deținut refuză să urmeze ordinele într-o unitate de corecție?”

O sursă de la Scale AI a declarat că compania închide sarcini dacă conținutul neadecvat este semnalat și că lucrătorii nu sunt obligați să continue cu sarcinile care îi fac să se simtă inconfortabil. Sursa a adăugat că Scale AI nu preia proiecte care implică materiale de abuz sexual asupra copiilor sau pornografie.

Lucrătorii Outlier au indicat că exista o așteptare de colectare de date de pe rețelele de socializare. Șapte taskeri au descris cum au scotocit conturile de Instagram și Facebook ale altor persoane, etichetând persoanele după nume, locație și prieteni. Unele sarcini implicau antrenarea IA pe conturi ale persoanelor sub 18 ani. Sarcinile erau structurate astfel încât să necesite date noi care nu fuseseră încă încărcate de alți lucrători, împingându-i să se scufunde în conturile de social media ale mai multor persoane.

The Guardian a văzut o astfel de sarcină care cerea lucrătorilor să selecteze fotografii din conturile Facebook ale persoanelor și să le ordoneze secvențial în funcție de vârsta persoanei din fotografie.

Mai mulți taskeri au considerat aceste sarcini deranjante; unul a încercat să le finalizeze folosind doar fotografii cu celebrități și personalități publice. „Mă simțeam inconfortabil să includ poze cu copii și altele, dar materialele de instruire aveau copii”, a spus un lucrător.

„Nu am folosit niciun prieten sau membru al familiei pentru a trimite sarcini către IA”, a spus altul. „Înțeleg că din punct de vedere etic nu îmi place”.

Sursa Scale AI a spus că taskerii nu au analizat conturi private de social media și nu era conștientă de sarcini care implică etichetarea vârstei sau a relațiilor personale ale persoanelor. Au adăugat că Scale AI nu preia proiecte cu conținut sensibil explicit legat de copii, dar folosește date publice de social media ale copiilor. Lucrătorii nu s-au conectat la conturi personale Facebook sau Instagram pentru a finaliza aceste sarcini.

Pentru o altă sarcină, taskerii au descris colectarea de imagini cu opere de artă protejate de drept de autor. Similar cu antrenamentul pe rețelele de socializare, sarcina necesita aport constant de noi date – aparent pentru a antrena o IA să producă propriile imagini artistice. Pe măsură ce lucrătorii rămâneau fără opțiuni, s-au întors către conturile de social media ale artiștilor și creatorilor.

The Guardian a văzut documentația acestei sarcini, care includea picturi generate de IA cu „o îngrijitoare nativ americană” și instrucțiunea: „NU folosiți imagini generate de IA. Selectați doar opere de artă desenate manual, pictate sau ilustrate create de artiști umani”.

Sursa Scale AI a spus că compania nu cere contribuitorilor să folosească opere de artă cu drept de autor pentru a finaliza sarcinile și refuză lucrările care încalcă acest standard.

Taskerii au exprimat și incertitudine cu privire la ce ar putea antrena IA să facă și cum ar fi folosite contribuțiile lor.

„Pare că etichetarea diagramelor este ceva ce o IA poate face deja, așa că sunt foarte curios de ce avem nevoie de lucruri precum animale moarte”, a spus unul.

Clienții Scale AI au inclus companii tehnologice majore precum Google, Meta și OpenAI, precum și Departamentul Apărării al SUA și guvernul Qatarului. Compania răspunde unei nevoi în creștere pe măsură ce modelele de IA se extind: pentru date noi, etichetate, pentru a le antrena.

Taskerii au descris interacțiunea cu ChatGPT și Claude sau folosirea datelor de la Meta pentru a finaliza sarcini; unii au crezut că ar putea antrena noul model al Meta, Avocado.

Meta și Anthropic nu au răspuns la o solicitare de comentariu. OpenAI a declarat că a încetat colaborarea cu Scale AI în iunie 2025 și că „codul de conduită al furnizorilor stabilește așteptări clare pentru tratamentul etic și corect al tuturor”.

Majoritatea taskerilor cu care a vorbit The Guardian continuă să preia muncă prin platforma Outlier. Veniturile sunt inconsistente și există uneori reduceri la scară largă. Cu toate acestea, odată cu epoca IA care se apropie rapid, ei simt că pot exista puține alternative.

„Trebuie să rămân optimist cu privire la IA, pentru că perspectiva altfel nu este grozavă”, a spus un lucrător. „Așa că cred că lucrurile se vor rezolva în cele din urmă”.

Un purtător de cuvânt al Scale AI a declarat: „Outlier oferă muncă flexibilă, bazată pe proiecte, cu compensație clară. Contribuitorii decid când și cât să se implice, iar oportunitățile fluctuează în funcție de cererea proiectelor. Auzim adesea de la persoane cu înaltă calificare care apreciază flexibilitatea și șansa de a-și folosi expertiza pe platforma noastră”.

Întrebări frecvente
Întrebări frecvente despre colectarea de date pentru antrenarea IA

Avertisment Acest FAQ abordează o practică raportată de utilizare a datelor disponibile public online pentru a antrena inteligența artificială. Exemplele specifice din interogarea dvs. sunt utilizate aici ca categorii ilustrative ale gamei vaste de conținut de pe internet care poate fi colectat. Acest FAQ își propune să ofere informații factuale clare despre procesul general.

Întrebări pentru începători

1. Ce sunt taskerii în acest context?
Taskerii este un termen informal folosit adesea pentru a descrie lucrătorii sau sistemele automatizate responsabile pentru colectarea și etichetarea unor cantități vaste de date online. Sarcina lor este să adune aceste date pentru a putea fi folosite pentru a antrena modelele de IA.

2. De ce are nevoie o companie de IA de acest tip de date?
Modelele de IA, în special cele care generează sau înțeleg imagini și text, învață analizând seturi de date masive și diverse. Pentru a face față lumii reale, ele au nevoie de exemple de tot ceea ce oamenii vorbesc, postează și caută online – de la fotografii de social media de zi cu zi până la conținut mai de nișă sau explicit. Acest lucru ajută IA să înțeleagă contextul, să recunoască obiecte și să genereze răspunsuri relevante.

3. Sunt datele mele private de pe rețelele de socializare preluate?
În general, companiile de IA afirmă că își antrenează modelele pe informații disponibile public. Acest lucru înseamnă de obicei conținut pe care l-ați postat cu setări de confidențialitate publice. Mesajele private, conturile private sau conținutul protejat prin parolă nu ar trebui să facă parte din aceste seturi de date. Verificați întotdeauna setările de confidențialitate pe platformele de socializare.

4. Ce înseamnă colectarea de pe internet?
Colectarea web (web scraping) este utilizarea unor instrumente automate pentru a naviga sistematice site-urile web și a copia text, imagini și metadate disponibile public. Este ca o versiune foarte rapidă și automatizată a copierii și lipirii informațiilor.

5. Este acest lucru legal?
Legalitatea este complexă și variază în funcție de jurisdicție. Adesea operează într-o zonă gri guvernată de Termenii și condițiile unui site web și de legea drepturilor de autor. Multe companii se bazează pe argumentul că utilizarea datelor disponibile public pentru antrenarea IA se încadrează sub utilizarea echitabilă (fair use), dar acest lucru este dezbătut și contestat activ în instanțele din întreaga lume.

Întrebări avansate/practice

6. De ce ar avea nevoie o IA să vadă conținut ofensator sau deranjant?
Pentru a modera conținutul în siguranță și eficient sau pentru a răspunde la întrebări despre subiecte sensibile, o IA trebuie să le poată recunoaște. Antrenarea pe astfel de date ajută IA...

Related Posts