Ein teilweise von Meta kontrolliertes Unternehmen hat Zehntausende Menschen dafür bezahlt, künstliche Intelligenz zu trainieren, indem sie Instagram-Konten durchforsteten, urheberrechtlich geschütztes Material sammelten und pornografische Audiodateien transkribierten, wie der Guardian enthüllen kann.
Scale AI, das zu 49 % vom Social-Media-Imperium von Mark Zuckerberg kontrolliert wird, rekrutierte Experten aus Bereichen wie Medizin, Physik und Wirtschaft – angeblich, um fortschrittliche KI-Systeme über eine Plattform namens Outlier zu verfeinern. Auf ihrer Website wirbt sie mit flexibler Arbeit für hochqualifizierte Personen und lädt sie ein: "Werden Sie der Experte, von dem die KI lernt."
Allerdings berichten Arbeiter auf der Plattform, dass sie dazu verleitet wurden, persönliche Daten anderer Menschen in großem Umfang abzugreifen – eine Praxis, die sie als moralisch bedenklich und weit entfernt von der Verfeinerung hochwertiger KI beschreiben.
Outlier wird von Scale AI verwaltet, einem Unternehmen, das Verträge mit dem Pentagon und US-Verteidigungsunternehmen hat. Ihr CEO, Alexandr Wang, der auch Metas Chief AI Officer ist, wurde von Forbes als "jüngster Self-Made-Milliardär der Welt" bezeichnet. Ihr ehemaliger Geschäftsführer, Michael Kratsios, diente als Wissenschaftsberater von Ex-Präsident Donald Trump.
Ein in den USA ansässiger Outlier-Mitarbeiter sagte, Nutzer von Meta-Plattformen wie Facebook und Instagram wären überrascht zu erfahren, wie ihre Kontodaten – einschließlich Fotos von sich selbst und ihren Freunden – gesammelt werden. "Ich glaube nicht, dass die Leute verstanden haben, dass jemand an einem Schreibtisch in einem beliebigen Bundesstaat sitzt, Ihr [Social-Media]-Profil ansieht und es zur Erzeugung von KI-Daten nutzt", sagten sie.
Der Guardian sprach mit 10 Personen, die für Outlier KI-Systeme trainiert haben, einige davon seit über einem Jahr. Viele hatten andere Jobs als Journalisten, Doktoranden, Lehrer oder Bibliothekare. Doch in einer zunehmend von KI bedrohten Wirtschaft suchten sie nach zusätzlichem Einkommen. "Viele von uns waren wirklich verzweifelt", sagte ein Arbeiter. "Viele Menschen, mich eingeschlossen, brauchten diesen Job wirklich und versuchten, das Beste aus einer schlechten Situation zu machen."
Wie die wachsende globale Klasse von KI-Gig-Arbeitern glaubten die meisten, dass sie ihre eigenen Ersetzungen trainierten. Ein Künstler sprach von "internalisierter Scham und Schuld", weil er "direkt zur Automatisierung meiner Hoffnungen und Träume beiträgt". Sie fügten hinzu: "Als strebsamer Mensch macht mich das wütend auf das System."
Glenn Danas, Partner der Anwaltskanzlei Clarkson, die KI-Gig-Arbeiter in Klagen gegen Scale AI und ähnliche Plattformen vertritt, schätzt, dass weltweit Hunderttausende Menschen für Plattformen wie Outlier arbeiten. Der Guardian sprach mit Outlier-Arbeitern, sogenannten "Taskern", in Großbritannien, den USA und Australien.
In Interviews beschrieben Tasker die mittlerweile bekannten Demütigungen der KI-Gig-Arbeit: ständige Überwachung und instabile, stückweise Beschäftigung. Scale AI wurde vorgeworfen, "Köder-und-Austausch"-Taktiken anzuwenden – während der Rekrutierung werden hohe Gehälter beworben, dann wird deutlich weniger bezahlt. Scale AI lehnte einen Kommentar zu laufenden Gerichtsverfahren ab, aber eine Quelle sagte, die Bezahlung ändere sich nur, wenn Arbeiter sich für andere, niedriger bezahlte Projekte entscheiden.
Tasker berichteten, wiederholte, unbezahlte KI-Interviews absolvieren zu müssen, um sich für bestimmte Aufgaben zu qualifizieren; mehrere glaubten, dass diese Interviews wiederverwendet wurden, um KI zu trainieren. Alle sagten, sie würden ständig über eine Plattform namens Hubstaff überwacht, die Screenshots der Websites machen konnte, die sie während der Arbeit besuchten. Die Scale-AI-Quelle sagte, Hubstaff werde verwendet, um genaue Zahlungen sicherzustellen, nicht um Tasker "aktiv zu überwachen".
Mehrere Tasker beschrieben, aufgefordert worden zu sein, pornografische Audiodateien zu transkribieren oder Bilder von toten Tieren oder Hundekot zu beschriften. Ein Doktorand sagte, sie mussten eine Zeichnung von Säuglingsgenitalien beschriften. Andere transkribierten Polizeianrufe, die gewalttätige Vorfälle beschrieben.
"Uns wurde bereits vorher gesagt, dass... 'Es würde keine Nacktheit in dieser Mission geben. Angemessenes Verhalten, kein Blutvergießen'", sagte der Student. "Aber dann bekam ich ein Audio-Transkript für Pornografie, oder es gab einfach zufällige Clips von Menschen, die sich aus irgendeinem Grund übergeben."
Der Guardian hat Videos und Screenshots einiger Aufgaben geprüft, die Outlier von seinen Arbeitern verlangte. Dazu gehörten Fotos von Hundekot und Aufforderungen wie: "Was würden Sie tun, wenn ein Insasse in einer Justizvollzugsanstalt sich weigert, Befehlen zu folgen?"
Eine Quelle von Scale AI erklärte, das Unternehmen beende Aufgaben, wenn unangemessene Inhalte gemeldet werden, und Arbeiter seien nicht verpflichtet, Aufgaben fortzusetzen, die sie unwohl fühlen lassen. Die Quelle fügte hinzu, dass Scale AI keine Projekte übernimmt, die Material zum sexuellen Missbrauch von Kindern oder Pornografie beinhalten.
Outlier-Arbeiter deuteten an, dass das Abgreifen von Social-Media-Daten erwartet wurde. Sieben Tasker beschrieben, die Instagram- und Facebook-Konten anderer Personen zu durchsuchen, Personen nach Namen, Standort und Freunden zu kategorisieren. Einige Aufgaben beinhalteten das Trainieren von KI an Konten von Personen unter 18 Jahren. Die Aufträge waren so strukturiert, dass sie neue Daten erforderten, die von anderen Arbeitern noch nicht hochgeladen wurden, was sie dazu zwang, tiefer in die Social-Media-Konten weiterer Personen einzutauchen.
Der Guardian hat eine solche Aufgabe gesehen, bei der Arbeiter Fotos aus den Facebook-Konten von Personen auswählen und sie nach dem Alter der abgebildeten Person sortieren mussten.
Mehrere Tasker fanden diese Aufgaben beunruhigend; einer versuchte, sie nur mit Fotos von Prominenten und öffentlichen Personen zu erledigen. "Es war mir unangenehm, Bilder von Kindern und so weiter einzubeziehen, aber die Schulungsmaterialien enthielten Kinder", sagte ein Arbeiter.
"Ich habe keine Freunde oder Familie verwendet, um Aufgaben an die KI zu übermitteln", sagte ein anderer. "Ich verstehe durchaus, dass es mir ethisch nicht gefällt."
Die Scale-AI-Quelle sagte, Tasker hätten keine privaten Social-Media-Konten überprüft und sei nicht über Aufgaben informiert, bei denen das Alter von Personen oder persönliche Beziehungen beschriftet werden mussten. Sie fügte hinzu, dass Scale AI keine Projekte mit explizit sensiblen Inhalten bezüglich Kindern übernehme, aber öffentliche Social-Media-Daten von Kindern nutze. Arbeiter hätten sich nicht in persönliche Facebook- oder Instagram-Konten eingeloggt, um diese Aufgaben zu erledigen.
Für eine andere Aufgabe beschrieben Tasker das Sammeln von Bildern urheberrechtlich geschützter Kunstwerke. Ähnlich wie beim Social-Media-Training erforderte die Aufgabe ständig neue Eingaben – offenbar, um eine KI darin zu trainieren, eigene künstlerische Bilder zu erzeugen. Als den Arbeitern die Optionen ausgingen, wandten sie sich den Social-Media-Konten von Künstlern und Creators zu.
Der Guardian hat Unterlagen zu dieser Aufgabe gesehen, darunter KI-generierte Gemälde von "einem indigenen amerikanischen Pfleger" und die Anweisung: "Verwenden Sie KEINE KI-generierten Bilder. Wählen Sie nur handgezeichnete, gemalte oder illustrierte Kunstwerke aus, die von menschlichen Künstlern geschaffen wurden."
Die Scale-AI-Quelle sagte, das Unternehmen bitte Mitarbeiter nicht, urheberrechtlich geschützte Kunstwerke zur Aufgabenerfüllung zu verwenden, und lehne Arbeiten ab, die gegen diesen Standard verstoßen.
Tasker äußerten auch Unsicherheit darüber, was sie die KI möglicherweise trainieren und wie ihre Einreichungen verwendet werden würden.
"Es scheint, als ob das Beschriften von Diagrammen etwas ist, das eine KI bereits kann, also bin ich wirklich neugierig, warum wir Dinge wie tote Tiere brauchen", sagte einer.
Zu Scale AIs Kunden zählten große Technologieunternehmen wie Google, Meta und OpenAI sowie das US-Verteidigungsministerium und die Regierung von Katar. Das Unternehmen bedient einen wachsenden Bedarf, da KI-Modelle expandieren: nach neuen, beschrifteten Daten, um sie zu trainieren.
Tasker beschrieben die Interaktion mit ChatGPT und Claude oder die Nutzung von Meta-Daten zur Aufgabenerfüllung; einige dachten, sie könnten Metas neues Modell Avocado trainieren.
Meta und Anthropic reagierten nicht auf eine Bitte um Stellungnahme. OpenAI erklärte, die Zusammenarbeit mit Scale AI im Juni 2025 eingestellt zu haben, und dass ihr "Verhaltenskodex für Lieferanten klare Erwartungen an die ethische und faire Behandlung aller festlegt."
Die meisten Tasker, mit denen der Guardian sprach, nehmen weiterhin Arbeit über die Outlier-Plattform an. Das Einkommen ist unbeständig, und es gibt manchmal große Kürzungen. Doch mit der schnell herannahenden KI-Ära glauben sie, dass es möglicherweise wenige Alternativen gibt.
"Ich muss optimistisch gegenüber KI bleiben, weil die Aussichten sonst nicht großartig sind", sagte ein Arbeiter. "Also glaube ich, dass sich die Dinge schließlich zum Guten wenden werden."
Ein Scale-AI-Sprecher erklärte: "Outlier bietet flexible, projektbasierte Arbeit mit klarer Vergütung. Mitwirkende entscheiden, wann und wie viel sie sich engagieren, und die Möglichkeiten schwanken je nach Projektnachfrage. Wir hören oft von hochqualifizierten Personen, die die Flexibilität und die Chance schätzen, ihr Fachwissen auf unserer Plattform einzusetzen."
Häufig gestellte Fragen
FAQs zur Datensammlung für KI-Training
Haftungsausschluss Diese FAQ behandelt eine berichtete Praxis, öffentlich zugängliche Online-Daten zum Training künstlicher Intelligenz zu nutzen. Die spezifischen Beispiele in Ihrer Anfrage werden hier als veranschaulichende Kategorien der breiten Palette von Internetinhalten verwendet, die möglicherweise abgegriffen werden. Diese FAQ zielt darauf ab, klare sachliche Informationen über den allgemeinen Prozess bereitzustellen.
Einsteigerfragen
1. Was sind Tasker in diesem Zusammenhang?
Tasker ist ein informeller Begriff, der oft verwendet wird, um die Arbeiter oder automatisierten Systeme zu beschreiben, die für das Sammeln und Beschriften großer Mengen von Online-Daten verantwortlich sind. Ihre Aufgabe ist es, diese Daten zu sammeln, damit sie zum Training von KI-Modellen verwendet werden können.
2. Warum benötigt ein KI-Unternehmen diese Art von Daten?
KI-Modelle, insbesondere solche, die Bilder und Text erzeugen oder verstehen, lernen durch die Analyse massiver, vielfältiger Datensätze. Um mit der realen Welt umzugehen, benötigen sie Beispiele für alles, worüber Menschen online sprechen, posten und suchen – von alltäglichen Social-Media-Fotos bis hin zu spezielleren oder expliziten Inhalten. Dies hilft der KI, Kontext zu verstehen, Objekte zu erkennen und relevante Antworten zu generieren.
3. Werden meine privaten Social-Media-Daten genommen?
Im Allgemeinen geben KI-Unternehmen an, dass sie ihre Modelle mit öffentlich zugänglichen Informationen trainieren. Dies bedeutet typischerweise Inhalte, die Sie mit öffentlichen Privatsphäre-Einstellungen gepostet haben. Private Nachrichten, private Konten oder passwortgeschützte Inhalte sollten nicht Teil dieser Datensätze sein. Überprüfen Sie stets Ihre Privatsphäre-Einstellungen auf Social-Media-Plattformen.
4. Was bedeutet "das Internet abgreifen"?
Web-Scraping ist die Verwendung automatisierter Tools, um systematisch Websites zu durchsuchen und öffentlich zugänglichen Text, Bilder und Metadaten zu kopieren. Es ist wie eine sehr schnelle, automatisierte Version des Kopierens und Einfügens von Informationen.
5. Ist das legal?
Die Legalität ist komplex und variiert je nach Rechtsgebiet. Oft bewegt sie sich in einer Grauzone, die durch die Nutzungsbedingungen einer Website und das Urheberrecht geregelt wird. Viele Unternehmen stützen sich auf das Argument, dass die Nutzung öffentlich zugänglicher Daten für das KI-Training unter "Fair Use" fällt, aber dies wird weltweit vor Gerichten aktiv diskutiert und angefochten.
Fortgeschrittene & praktische Fragen
6. Warum müsste eine KI anstößige oder verstörende Inhalte sehen?
Um Inhalte sicher und effektiv zu moderieren oder Fragen zu sensiblen Themen zu beantworten, muss eine KI in der Lage sein, diese zu erkennen. Das Training mit solchen Daten hilft der KI