China is undergoing a transformative robotics revolution.

Sie behalten die Kontrolle und das Gleichgewicht, weichen aber nicht von ihrer Programmierung ab. Die Technologie, die Galbot entwickelt, ist das, was Robotiker als Vision-Language-Action-Modell (VLA) bezeichnen. Dies soll Maschinen ermöglichen, in unbekannten und sich verändernden Umgebungen zu agieren, ähnlich wie Menschen. Derzeit können Galbots Roboter Aufgaben, die für Menschen einfach sind, wie Geschirrspülen, nicht zuverlässig ausführen. Gründer Wang hat jedoch chinesischen Medien gesagt, dass er innerhalb von drei Jahren 10.000 Roboter für einfache Einzelhandels- und Fabrikarbeiten einsetzen will. (Einige KI-Pioniere wie Yann LeCun sind äußerst skeptisch, dass der derzeitige Deep-Learning-Ansatz die Ergebnisse erreichen kann, auf die Unternehmen wie Galbot hoffen.)

Chens Besuch diente dazu, zu erkunden, wie Galbots Roboter in einer Elektrofahrzeugfabrik – einer der komplexesten Fertigungsumgebungen der Welt – eingesetzt werden könnten. Um dies zu erreichen, müssen die Roboter an einer Vielzahl von Fabrikszenarien trainiert werden, aber es gibt keine fertige Datenbank dafür. Damit Galbot überhaupt eine Chance hat, Roboter in einer solchen Umgebung einzusetzen, brauchen sie einen Spezialisten mit jahrzehntelanger Erfahrung in der komplexen Fertigung. Diese Person muss die richtigen Aufgaben für den humanoiden Roboter definieren, die Daten spezifizieren, die er zum Lernen benötigt, und sogar ausgleichen, was der Roboter noch nicht kann. Das ist die Expertise, die Chen bietet.

Wir fuhren mit einem Aufzug zur Spitze eines Turms und betraten einen Konferenzraum mit Blick auf den üppig grünen Campus der Peking-Universität. Bald traf ein leitender Galbot-Ingenieur ein und begann, Chen über die neuesten Fortschritte des Unternehmens zu informieren. Er erklärte, dass Galbot-Roboter kürzlich in 10 Pekinger Apotheken eingesetzt worden seien, um rund um die Uhr Medikamente abzugeben. Angetrieben von Nvidia-Chips kostet jeder Roboter etwa 700.000 Yuan (76.000 Pfund). Irgendwann verweilte der Ingenieur auf einer Folie, die die Technologie hinter Galbots Humanoiden detailliert beschrieb.

Vor dem Aufstieg des Deep Learning, so merkte der Ingenieur an, hätten Industrierobotiker wie Chen Maschinen manuell trainiert. Programmierer schrieben explizite Anweisungen für jede Bewegung. Wenn etwas schiefging, debuggten sie den Code und fügten neue Zeilen hinzu, um neue Situationen zu handhaben. Deep Learning verspricht, diesen handgeschriebenen Code durch das flexiblere VLA-Modell zu ersetzen. Ein großer Engpass bei der Erstellung solcher Modelle – und ein Hauptgrund, warum der "ChatGPT-Moment" für Roboter noch nicht eingetreten ist – ist der Mangel an Trainingsdaten.

Forscher sammeln diese Daten hauptsächlich auf zwei Arten. Die erste ist ein manueller Prozess namens Teleoperation, bei dem Menschen einen Roboter durch eine präzise Aufgabe führen, manchmal hunderttausende Male. Jede Aufgabe zeichnet ein Datenpaket auf – einschließlich visueller Informationen, Handpositionierung, Drehmoment und Tiefe – bekannt als "Aktionssequenz", die später zum Trainieren des VLA verwendet wird. Diese Methode ist arbeitsintensiv, weshalb Galbot den zweiten Ansatz bevorzugt: den Aufbau virtueller Umgebungen. "Es ist wie **Avatar**", sagte der Ingenieur und bezog sich auf den Blockbuster-Film. "Ich muss nicht physisch auf das Schlachtfeld treten; ich liege einfach in meiner Kapsel und kann alles simulieren."

Der Ingenieur zeigte uns Videos aus der realen Welt, in denen Galbot-Roboter als Ladenangestellte, Betreuungsbegleiter für Senioren und als Lieferroboterhunde getestet wurden, die sich durch den lebenden Straßenverkehr navigieren. Er behauptete, die Lieferroboter könnten in "zwei bis drei Jahren" einsatzbereit sein, wenn dem Projekt ausreichend Ressourcen gewidmet würden – obwohl sie diese Entscheidung noch nicht getroffen hätten. Nachdem er all diese Möglichkeiten kennengelernt hatte, konnte Chen seine Aufregung kaum zügeln. Er schlug einen Plan vor, um Galbots Humanoide darin zu trainieren, eine Schraube zu drehen. Während menschliche Arbeiter dies instinktiv tun, offenbart die Zerlegung für einen Roboter zahlreiche Mikroentscheidungen: das Loch finden, die Schraube ausrichten, den richtigen Druck und das richtige Drehmoment anwenden und wissen, wann man aufhören muss. Der Ingenieur sagte Chen, dass Galbot-Roboter bereits Werkzeuge wie einen Schraubenzieher greifen und handhaben könnten, aber er sei sich noch nicht sicher, ob sie die präzise Ausrichtung der Schraube oder das Wissen, wie fest man sie drehen muss, bewältigen könnten. "Lassen Sie uns die Verantwortlichkeiten definieren", beruhigte ihn Chen. "Was Sie zuverlässig handhaben können und was ich übernehme."

Sie einigten sich auf ein Ziel: Damit der Galbot-Humanoid in der Fabrik einsetzbar wäre, müsste er eine Schraube in weniger als acht Sekunden befestigen. Der Ingenieur lehnte sich zurück, leicht überwältigt. "Ihr habt so ein breites Spektrum an Ingenieursexpertise."

"Andere Gene", antwortete Chen gelassen. "Wir können die Probleme der Industrie gemeinsam lösen."

Nach dem Treffen ging ich einen Block nach Norden zu einem nahegelegenen Einkaufszentrum, wo Galbot einen seiner Einzelhandelsroboter hinter einem Werbekiosk aufgestellt hatte. Das weiße, schaufensterpuppenähnliche G1-Modell war ausgestellt, wobei ein menschlicher Arbeiter in Bereitschaft stand, falls etwas schiefging. Ich bestellte ein Pocari Sweat, ein japanisches Energiegetränk, von einem Tablet. Der G1 drehte sich zum Regal, seine mechanischen Arme ragten wie Flügel heraus, bevor eine Zange mein Getränk packte. Es stellte die Flasche aus etwas zu großer Höhe auf den Tresen, sodass das Getränk einige Zentimeter zur Seite hüpfte, obwohl es nicht umfiel.

Während unserer gemeinsamen Zeit hatte Chen betont, dass diese Technologie schneller voranschreite, als ich es mir vorstellen könne. Aber meine Erfahrung mit dem G1 – im Wesentlichen ein aufgeblasener, halbwegs kompetenter Verkaufsautomat – ließ mich skeptisch zurück. Zwei Monate später, im Februar, sah ich mir die Neujahrsgala von meiner Wohnung aus an. Galbots Roboter erschien in einem voraufgezeichneten Segment und sah anders aus. Die Zangen waren verschwunden, ersetzt durch zehn gegliederte Finger. Die Arme waren nicht mehr klobig, sondern geschmeidig und menschenähnlich. Als der Roboter nach einer Wasserflasche im Regal griff, bewegte er sich viel schneller und sicherer als zuvor. Wie viel davon geschnitten oder inszeniert war, weiß ich nicht. Aber ich bekam einen Vorgeschmack auf das, was Chen fühlte.

Wenn Sie schon einmal einen chinesischen Roboter tanzen oder Kung Fu machen gesehen haben, stammte er wahrscheinlich von Unitree. Letztes Jahr lieferte das Unternehmen über 5.500 humanoide Roboter aus, mehr als jedes andere Unternehmen der Welt. Kürzlich zeigte ein virales Video das Konzert des chinesischen Popstars Wang Leehom in Chengdu, bei dem Unitree-Roboter als Hintergrundtänzer dienten. Elon Musk repostete es mit einem Wort: "Beeindruckend." Diese viralen Auftritte sind gute Werbung für China, aber Unitrees Hauptkunden sind Labore und Universitäten, darunter Oxford, Carnegie Mellon, UC San Diego und Boston Dynamics, die die Roboter kaufen und Software entwickeln, um sie intelligenter zu machen. Ein Sprecher sagte mir, Unitree wolle, dass ihre Roboter irgendwann in Fabriken und Haushalte gelangen, um "gefährliche, repetitive und langweilige Arbeit für Menschen zu übernehmen".

Spätabends war ich in einem Taxi in Ningbo, als ich eine Nachricht von einem Unitree-Sprecher erhielt. Wir hatten geplant, uns am nächsten Morgen in ihrem Hauptsitz in Hangzhou zu treffen, aber das Unternehmen hatte kurzfristig ein "wichtiges Ereignis" angesetzt, das alle Straßen in der Nähe des Büros sperren würde. Es gibt nicht viele Dinge in China, die den Verkehr stoppen und Pläne durcheinanderbringen können. Ich überprüfte mein Handy, um zu sehen, wo Präsident Xi Jinping war: Zwei Tage zuvor hatte er an einer Sportveranstaltung in Guangzhou teilgenommen, aber es war unklar, wohin er als Nächstes reiste. Der Sprecher fragte, ob ich heute Abend kommen könne. Ich sah auf die Uhr – es war bereits 19:32 Uhr. "Wir sind hier", versicherte sie mir. Ich eilte zum Bahnhof.

Trotz ihres globalen Ansehens ist Unitrees Hauptsitz überraschend bescheiden. Das Unternehmen belegt zwei abgenutzte Gebäude im Technologiebezirk von Hangzhou, innerhalb eines alten Komplexes, der von Autohändlern und kleinen Familienläden flankiert wird. Als ich gegen 21 Uhr ankam, machten die meisten Unitree-Mitarbeiter gerade Feierabend. Ich wurde von drei Medienvertretern begrüßt, die mich zu einem Ausstellungsbereich führten, wo eine Reihe von Robotern wartete. Ein lila Boxhelm wippte, während er Kombinationen mit solcher Intensität schlug, dass ich instinktiv zurücktrat. In der Nähe tanzte ein anderer Roboter Charleston. Als Nächstes zeigte ein vierbeiniger Roboterhund Saltos und Tricks. Während der gesamten Vorführung traten die Präsentatoren die Roboter immer wieder kräftig, aber die Maschinen absorbierten jeden Schlag, ohne umzukippen.

Ein Entwickler bei Boston Dynamics, einem amerikanischen Konkurrenten, sagte mir, dass Unitrees Hardware hochmodern und bemerkenswert erschwinglich sei. Ihre Roboter beginnen bei etwa 1.600 Dollar, während vergleichbare amerikanische Modelle Zehntausende kosten. Der Boston-Dynamics-Entwickler führte Unitrees Vorteil auf strukturelle Bedingungen zurück. China hat zwei riesige Metropolregionen – das Jangtse-Delta bei Shanghai und das Perlflussdelta in Shenzhen – die dichte Netzwerke von Hardware-Zulieferern beherbergen. Roboterhersteller können manchmal nebenan gehen, um ein Ersatzteil zu besorgen. Das Anpassen eines Roboterprototyps kann in Shenzhen weniger als einen Tag dauern, aber in Silicon Valley Wochen, wo Teile über mehrere Bundesstaaten oder Ozeane reisen müssen. Diese einfache Bauweise erklärt auch, warum es in China 330 verschiedene Arten von humanoiden Robotern gibt. Sie verwandelt kreative Zerstörung in einen routinemäßigen Teil des Prozesses. "Wir kommerzialisieren eine Generation von Robotern", sagte Harry Xu, ein Robotikunternehmer und Forscher an der Tsinghua-Universität. Viele aus dieser Generation scheitern unweigerlich. "Dann bauen wir die nächste Generation."

Eine andere Möglichkeit, die humanoiden Robotikindustrien in den USA und China zu betrachten, ist als Spektrum. An einem Ende steht der Allzweck-Humanoid – die Science-Fiction-Vision einer Maschine, die alles kann, was ein Mensch kann. Am anderen Ende steht ein Roboter, der darauf trainiert ist, eine Sache extrem gut zu machen und Vielseitigkeit für kommerzielle Zuverlässigkeit opfert. Aus verschiedenen Gründen – Druck zur Kommerzialisierung, Staatsaufträge, intensiver Wettbewerb, der Differenzierung und Profit über reine Forschung belohnt – tendieren chinesische Unternehmen dazu, zum bescheideneren, spezialisierten Ende gezogen zu werden. Große amerikanische Technologieunternehmen, geschützt durch tieferes Risikokapital und weniger unmittelbaren kommerziellen Druck, zielen oft auf den heiligen Gral der Allzweckroboter ab. Eine plausible Zukunft ist eine, in der die USA die Entwicklung generalisierter Humanoide anführen, während China die Welt mit erschwinglichen, zuverlässigen Robotern versorgt, die jeweils eine bestimmte Aufgabe exzellent beherrschen. Die USA mögen irgendwann einen einzigen Roboter produzieren, der Ihren Rasen mähen, Ihren Hund ausführen und auf Ihre Kinder aufpassen kann. Aber während Sie warten, können Sie genauso gut drei chinesische Roboter kaufen, die jeweils eine Aufgabe erledigen, zu einem Bruchteil des Preises.

Am Morgen nach meinem Besuch nahm ich ein Taxi zurück zu Unitrees Büros, um zu sehen, was los war. Der Block um den Umkreis war abgesperrt. Ich stieg aus und ging etwa einen Block zu Unitrees Haupttor, wo drei Anzugträger Wache standen und jeden Passanten musterten. Hinter drei schwarzen Polizeivans konnte ich nichts sehen. Ich überprüfte mein Handy und sah, dass Xi Jinping 750 Meilen entfernt in Peking war und einen Besuch von König Felipe VI. von Spanien empfing. Ich überquerte die Straße und winkte ein weiteres Taxi heran. Sobald ich drinnen war, war der Fahrer neugierig, ob ich etwas vor der Fabrik gesehen hätte. Er hatte gerade einen Unitree-Mitarbeiter abgesetzt und spekulierte schnell: "Da muss eine Armeegruppe drin sein."

Seine Vermutung war vernünftig. Vor zwei Jahren zeigte das chinesische Staatsfernsehen Aufnahmen von Militärübungen, auf denen Unitree-Roboterhunde mit Maschinengewehren ausgestattet waren. Amerikanische Gesetzgeber haben vorgeschlagen, Unitree von US-Technologien wie Halbleitern abzuschneiden. Unitree behauptet, nicht an das Militär zu verkaufen und unterstützt auch keine militärischen Modifikationen durch Dritte, aber ein in den USA ansässiges Analyseunternehmen behauptet, Unitree verkaufe an chinesische Universitäten, die Verträge mit dem Militär haben. Diese Prüfung hat Chinas Robotikindustrie beeinflusst. Ein Sprecher eines führenden Robotikunternehmens sagte mir, sie seien von den Behörden gewarnt worden, nicht mit westlichen Medien zu sprechen. Als ich Unitrees Sprecher nach ihren Kunden fragte und ob sie mehr Roboter im Ausland oder in China verkauften, antwortete das Unternehmen einfach: "Wir machen beides." Später, als ich nachhakte, erklärte Unitree, dass die von mir gesehene Sicherheitspräsenz nicht militärisch bedingt war – es handelte sich um eine Regierungsdelegation, die sich über ihre Roboter informieren wollte.

In derselben Woche, in der ich Galbot mit Chen Liang besuchte, reiste ich in die Außenbezirke Pekings zu dem, was die Stadtregierung Chinas "größtes Robotertrainingszentrum" nennt. Das Zentrum wird von Leju Robotics betrieben, einem Unternehmen, dessen Roboter nicht aus Simulationen lernen, sondern aus realen Beispielen, die von menschlichen Datensammlern oder Teleoperatoren bereitgestellt werden. Lejus Flaggschiff-Humanoidroboter Kuavo wird bereits in einigen Elektrofahrzeugfabriken in ganz China für grundlegende Aufgaben wie das Entstapeln von Kartons eingesetzt.

In der Lobby zeigte ein großer Wandmonitor eine Karte Chinas mit fünf leuchtenden roten Punkten, die jede Stadt markierten, in der Leju ein Trainingszentrum hat. Neben jedem Punkt stand die Anzahl der an diesem Standort gesammelten Aktionssequenzen. Der größte Standort war hier in Peking, wo etwa 100 Teleoperatoren in ordentlichen Reihen in einem abgetrennten Bereich eines Lagers angeordnet waren. Jeder Arbeitsplatz hatte zwei Personen, die einem Roboter zugewiesen waren und verschiedene Aufgaben wie das Abwischen eines Tisches, das Sortieren von Besteck oder das Bewegen eines Wasserglases ausführten. Im Obergeschoss trainierten Teleoperatoren Roboter in industriellen Aufgaben wie dem Sortieren und Verpacken von Kartons. Leju und seine Partner verkaufen einen Teil dieser Daten an Dritte und haben auch einen Teil – 100 Stunden – öffentlich freigegeben, damit internationale Forscher sie zur Verfeinerung von Vision-Language-Action-Modellen nutzen können.

Von der Seite des Raumes aus beobachtete ich, wie ein Arbeiter mit einem VR-ähnlichen Headset die Hand eines Roboters anleitete, eine Kartoffel von einem Tisch aufzuheben und in einen Korb zu legen. Der Roboter griff dann nach einem Tuch, um den Tisch abzuwischen. Ein anderer Arbeiter saß an einem Laptop und protokollierte in einer Datenbank, ob jede Aktion erfolgreich war. Im Obergeschoss verarbeiteten Ingenieure diese Daten, die schließlich zum Trainieren eines Vision-Language-Action-Modells verwendet werden sollten. An einer anderen

Related Posts