Porn, dog poop, and social media photos: the “taskers” who are scraping the internet for Meta’s AI company.

Společnost částečně vlastněná společností Meta platila desetitisícům lidí za trénování umělé inteligence tím, že procházeli účty na Instagramu, shromažďovali materiály chráněné autorskými právy a přepisovali pornografické audio, jak zjistil Guardian.

Společnost Scale AI, kterou z 49 % ovládá sociální impérium Marka Zuckerberga, najala odborníky z oborů, jako je medicína, fyzika a ekonomie – údajně za účelem zdokonalování pokročilých systémů umělé inteligence prostřednictvím platformy Outlier. Její webové stránky inzerují flexibilní práci pro vysoce kvalifikované jedince a vyzývají je, aby se „stali odborníky, od kterých se AI učí“.

Pracovníci na platformě však tvrdí, že byli nuceni sbírat širokou škálu osobních údajů od ostatních lidí – praxi, kterou popisují jako morálně problematickou a vzdálenou od zdokonalování vyspělé umělé inteligence.

Outlier spravuje společnost Scale AI, která má smlouvy s Pentagonem a americkými obrannými dodavateli. Její generální ředitel Alexandr Wang, který je zároveň hlavním AI důstojníkem společnosti Meta, byl časopisem Forbes označen za „nejmladšího self-made miliardáře na světě“. Její bývalý výkonný ředitel Michael Kratsios působil jako vědecký poradce bývalého prezidenta Donalda Trumpa.

Jeden americký dodavatel Outlieru uvedl, že uživatelé platforem Meta, jako jsou Facebook a Instagram, by byli překvapeni, kdyby zjistili, jak jsou shromažďována data z jejich účtů – včetně fotografií jich samotných a jejich přátel. „Nemyslím si, že lidé chápali, že někdo u stolu v náhodném státě bude prohlížet váš profil na sociálních sítích a používat ho k vytváření dat pro AI,“ řekli.

Guardian hovořil s 10 lidmi, kteří pracovali pro Outlier na trénování systémů umělé inteligence, někteří déle než rok. Mnozí měli jiná zaměstnání jako novináři, postgraduální studenti, učitelé nebo knihovníci. Ale v ekonomice, která je stále více ohrožována umělou inteligencí, hledali dodatečný příjem. „Mnozí z nás byli opravdu zoufalí,“ řekl jeden pracovník. „Mnoho lidí, včetně mě, tuto práci opravdu potřebovalo a snažili se z nepříjemné situace vytěžit maximum.“

Stejně jako rostoucí globální třída pracovníků v oblasti AI většina věřila, že trénuje své vlastní náhrady. Jeden umělec hovořil o „internalizovaném studu a vině“ za „přímý přínos k automatizaci mých nadějí a snů“. Dodal: „Jako aspirující člověk mě to rozčiluje na systém.“

Glenn Danas, partner právní kanceláře Clarkson, která zastupuje pracovníky AI v žalobách proti společnosti Scale AI a podobným platformám, odhaduje, že stovky tisíc lidí po celém světě nyní pracují pro platformy jako Outlier. Guardian hovořil s pracovníky Outlieru, známými jako „taskers“, ve Velké Británii, USA a Austrálii.

V rozhovorech taskeři popsali nyní již známé ponížení práce v oblasti AI: neustálé sledování a nestabilní, úkolové zaměstnání. Scale AI byla obviněna z používání taktiky „návnady a výměny“ – inzerování vysokých platů během náboru, poté nabízení výrazně nižší mzdy. Scale AI odmítla komentovat probíhající soudní spory, ale zdroj uvedl, že sazby se mění pouze tehdy, pokud se pracovníci rozhodnou připojit k jiným, hůře placeným projektům.

Taskeři uvedli, že museli absolvovat opakované, neplacené pohovory s AI, aby se kvalifikovali pro určité úkoly; několik z nich se domnívalo, že tyto pohovory byly znovu použity k trénování AI. Všichni uvedli, že jsou neustále sledováni prostřednictvím platformy Hubstaff, která může pořizovat snímky obrazovek webových stránek, které navštěvovali při práci. Zdroj ze Scale AI uvedl, že Hubstaff se používá k zajištění přesné výplaty, nikoli k „aktivnímu sledování“ taskerů.

Několik taskerů popsalo, že byli požádáni o přepis pornografického audia nebo označování obrázků mrtvých zvířat nebo psích výkalů. Jeden doktorand uvedl, že musel označit diagram genitálií kojence. Jiní přepisovali policejní hovory popisující násilné incidenty.

„Už nám bylo řečeno, že... v této misi nebude žádná nahota. Vhodné chování, žádné krvavé scény, žádná krev,“ řekl student. „Ale pak jsem dostal audio přepis pro porno, nebo tam prostě byly náhodné klipy lidí zvracejících z nějakého důvodu.“

Guardian zkontroloval videa a snímky obrazovek některých úkolů, které Outlier požadoval po svých pracovnících. Mezi ně patřily fotografie psích výkalů a výzvy jako: „Co byste udělali, kdyby vězeň odmítl uposlechnout rozkazů v nápravném zařízení?“

Zdroj ze Scale AI uvedl, že společnost úkoly ukončuje, pokud je nahlášen nevhodný obsah, a že pracovníci nejsou povinni pokračovat v úkolech, které je znepokojují. Zdroj dodal, že Scale AI nepřijímá projekty zahrnující materiály o sexuálním zneužívání dětí nebo pornografii.

Pracovníci Outlieru naznačili, že se očekávalo prohledávání sociálních médií. Sedm taskerů popsalo prohledávání účtů jiných lidí na Instagramu a Facebooku, označování jednotlivců jménem, lokalitou a přáteli. Některé úkoly zahrnovaly trénování AI na účtech osob mladších 18 let. Úkoly byly strukturovány tak, aby vyžadovaly nová data, která ještě nenahráli jiní pracovníci, což je nutilo ponořit se do více účtů na sociálních sítích.

Guardian viděl jeden takový úkol, který vyžadoval, aby pracovníci vybírali fotografie z účtů jednotlivců na Facebooku a řadili je postupně podle věku osoby na fotografii.

Několik taskerů považovalo tyto úkoly za znepokojující; jeden se je snažil dokončit pouze pomocí fotografií celebrit a veřejných osobností. „Bylo mi nepříjemné zahrnovat obrázky dětí a podobně, ale školící materiály by děti obsahovaly,“ řekl jeden pracovník.

„Nepoužil jsem žádné přátele nebo rodinu k odesílání úkolů do AI,“ řekl další. „Chápu, že se mi to eticky nelíbí.“

Zdroj ze Scale AI uvedl, že taskeři neprohlíželi soukromé účty na sociálních sítích a nebyl si vědom úkolů zahrnujících označování věku jednotlivců nebo osobních vztahů. Dodal, že Scale AI nepřijímá projekty s explicitním citlivým obsahem týkajícím se dětí, ale používá veřejná data dětí z sociálních médií. Pracovníci se nepřihlašovali do osobních účtů na Facebooku nebo Instagramu, aby tyto úkoly dokončili.

Pro další úkol taskeři popsali sbírání obrázků uměleckých děl chráněných autorskými právy. Podobně jako u tréninku na sociálních sítích úkol vyžadoval neustálý nový vstup – zřejmě za účelem trénování AI, aby vytvářela vlastní umělecké obrazy. Jak pracovníkům docházely možnosti, obrátili se na účty na sociálních sítích umělců a tvůrců.

Guardian viděl dokumentaci k tomuto úkolu, která zahrnovala AI generované malby „pečovatele z řad domorodých Američanů“ a instrukci: „NEPOUŽÍVEJTE obrázky generované AI. Vyberte pouze ručně kreslená, malovaná nebo ilustrovaná umělecká díla vytvořená lidskými umělci.“

Zdroj ze Scale AI uvedl, že společnost nepožaduje od přispěvatelů použití uměleckých děl chráněných autorskými právy k dokončení úkolů a odmítá práci, která porušuje tento standard.

Taskeři také vyjádřili nejistotu ohledně toho, co by mohli trénovat AI dělat a jak budou jejich příspěvky použity.

„Zdá se, že označování diagramů je něco, co AI už umí, takže jsem opravdu zvědavý, proč potřebujeme věci jako mrtvá zvířata,“ řekl jeden.

Klienti Scale AI zahrnovali velké technologické společnosti jako Google, Meta a OpenAI, stejně jako americké ministerstvo obrany a vládu Kataru. Společnost řeší rostoucí potřebu, jak se rozšiřují modely AI: pro nová, označená data k jejich trénování.

Taskeři popsali interakci s ChatGPT a Claude nebo použití dat od Meta k dokončení úkolů; někteří si mysleli, že by mohli trénovat nový model Meta, Avocado.

Meta a Anthropic nereagovaly na žádost o komentář. OpenAI uvedla, že v červnu 2025 přestala spolupracovat se Scale AI a že její „kodex chování dodavatelů stanovuje jasná očekávání etického a spravedlivého zacházení se všemi“.

Většina taskerů, se kterými Guardian hovořil, pokračuje v práci prostřednictvím platformy Outlier. Příjem je nepravidelný a někdy dochází k rozsáhlým škrtům. Přesto, s rychle se blížící érou AI, cítí, že možná existuje jen málo alternativ.

„Musím zůstat optimistický ohledně AI, protože vyhlídky jinak nejsou skvělé,“ řekl jeden pracovník. „Takže věřím, že se věci nakonec vyřeší.“

Mluvčí Scale AI uvedl: „Outlier nabízí flexibilní, projektovou práci s jasnou odměnou. Přispěvatelé rozhodují, kdy a jak moc se zapojí, a příležitosti kolísají v závislosti na poptávce projektu. Často slyšíme od vysoce kvalifikovaných jednotlivců, kteří oceňují flexibilitu a možnost využít své odborné znalosti na naší platformě.“

Často kladené otázky
Často kladené otázky o sběru dat pro trénování AI

Odmítnutí odpovědnosti Tento FAQ se zabývá hlášenou praxí používání veřejně dostupných online dat k trénování umělé inteligence Konkrétní příklady ve vašem dotazu jsou zde použity jako ilustrativní kategorie širokého spektra internetového obsahu, který může být scrapován Tento FAQ si klade za cíl poskytnout jasné faktické informace o obecném procesu

Otázky pro začátečníky

1 Co jsou v tomto kontextu taskeři
Taskeři je neformální termín často používaný k popisu pracovníků nebo automatizovaných systémů odpovědných za sběr a označování obrovského množství online dat Jejich úkolem je shromažďovat tato data, aby mohla být použita k trénování modelů AI

2 Proč AI společnost potřebuje tento druh dat
Modely AI zejména ty které generují nebo rozumějí obrázkům a textu se učí analýzou masivních různorodých datových sad Aby zvládly reálný svět potřebují příklady všeho o čem lidé mluví zveřejňují a co hledají online od každodenních fotografií na sociálních sítích po více specializovaný nebo explicitní obsah To pomáhá AI pochopit kontext rozpoznat objekty a generovat relevantní odpovědi

3 Jsou odebírána moje soukromá data ze sociálních médií
Obecně AI společnosti uvádějí že trénují své modely na veřejně dostupných informacích To obvykle znamená obsah který jste zveřejnili s veřejným nastavením soukromí Soukromé zprávy soukromé účty nebo obsah chráněný heslem by neměly být součástí těchto datových sad Vždy zkontrolujte nastavení soukromí na sociálních platformách

4 Co znamená scrapování internetu
Web scraping je použití automatizovaných nástrojů k systematickému procházení webových stránek a kopírování veřejně dostupného textu obrázků a metadat Je to jako velmi rychlá automatizovaná verze kopírování a vkládání informací

5 Je to legální
Legalita je složitá a liší se podle jurisdikce Často funguje v šedé zóně řízené podmínkami služeb webových stránek a autorským zákonem Mnoho společností se spoléhá na argument že použití veřejně dostupných dat pro trénování AI spadá pod fair use ale to je aktivně diskutováno a napadáno v soudních sporech po celém světě

Pokročilé praktické otázky

6 Proč by AI potřebovala vidět urážlivý nebo znepokojující obsah
Aby mohla bezpečně a efektivně moderovat obsah nebo odpovídat na otázky týkající se citlivých témat musí AI být schopna je rozpoznat Trénink na takových datech pomáhá AI

Related Posts