Ils maintiennent le contrôle et l'équilibre, mais ils ne s'écartent pas de leur programmation. La technologie que Galbot développe est ce que les roboticistes appellent un modèle vision-langage-action (VLA). Il vise à permettre aux machines d'opérer dans des environnements inconnus et changeants, un peu comme les humains. Actuellement, les robots de Galbot ne peuvent pas accomplir de manière fiable des tâches simples pour les humains, comme laver la vaisselle. Cependant, le fondateur Wang a déclaré aux médias chinois qu'il visait à avoir 10 000 robots effectuant des travaux de base dans la vente au détail et les usines d'ici trois ans. (Certains pionniers de l'IA, comme Yann LeCun, sont très sceptiques quant à la capacité de l'approche actuelle de l'apprentissage profond à atteindre les résultats escomptés par des entreprises comme Galbot.)
La visite de Chen visait à explorer comment les robots de Galbot pourraient être utilisés dans une usine de véhicules électriques – l'un des environnements de fabrication les plus complexes au monde. Pour y parvenir, il faut entraîner les robots sur un très grand nombre de scénarios d'usine, mais il n'existe pas de base de données prête à l'emploi pour cela. Pour que Galbot ait une chance de déployer des robots dans un tel environnement, ils ont besoin d'un spécialiste possédant des décennies d'expérience en fabrication complexe. Cette personne doit définir les bonnes tâches pour le robot humanoïde, spécifier les données dont il a besoin pour apprendre, et même compenser ce que le robot ne peut pas encore faire. C'est l'expertise que propose Chen.
Nous avons pris un ascenseur jusqu'au sommet d'une tour et sommes entrés dans une salle de réunion donnant sur le campus verdoyant de l'Université de Pékin. Un ingénieur senior de Galbot est bientôt arrivé et a commencé à informer Chen des derniers progrès de l'entreprise. Il a expliqué que les robots Galbot avaient récemment été déployés dans 10 pharmacies de Pékin, distribuant des médicaments 24 heures sur 24. Alimentés par des puces Nvidia, chaque robot coûte environ 700 000 yuans (76 000 livres sterling). À un moment donné, l'ingénieur s'est arrêté sur une diapositive détaillant la technologie derrière les humanoïdes de Galbot.
Avant l'essor de l'apprentissage profond, a noté l'ingénieur, les roboticistes industriels comme Chen formaient les machines manuellement. Les programmeurs écrivaient des instructions explicites pour chaque mouvement. Lorsque quelque chose n'allait pas, ils déboguaient le code et ajoutaient de nouvelles lignes pour gérer de nouvelles situations. L'apprentissage profond promet de remplacer ce code écrit à la main par le modèle VLA plus flexible. Un goulot d'étranglement majeur dans la création de tels modèles – et une raison clé pour laquelle le "moment ChatGPT" pour les robots n'est pas arrivé – est la rareté des données d'entraînement.
Les chercheurs collectent ces données de deux manières principales. La première est un processus manuel appelé téléopération, où des humains guident un robot à travers une tâche précise, parfois des centaines de milliers de fois. Chaque tâche enregistre un ensemble de données – incluant des informations visuelles, le positionnement des mains, le couple et la profondeur – connu sous le nom de "séquence d'action", qui est ensuite utilisée pour entraîner le VLA. Cette méthode est très laborieuse, c'est pourquoi Galbot préfère la seconde approche : construire des environnements virtuels. "C'est comme **Avatar**", a dit l'ingénieur, en référence au film à succès. "Je n'ai pas besoin de me rendre physiquement sur le champ de bataille ; je me couche dans ma capsule et je peux tout simuler."
L'ingénieur nous a montré des vidéos réelles de robots Galbot testés comme vendeurs en magasin, compagnons de soins pour personnes âgées et chiens robots livreurs naviguant dans la circulation urbaine. Il a affirmé que les robots livreurs pourraient être prêts dans "deux à trois ans" si des ressources suffisantes étaient consacrées au projet – bien qu'ils n'aient pas encore pris cette décision. Après avoir découvert toutes ces possibilités, Chen pouvait à peine contenir son excitation. Il a proposé un plan pour entraîner les humanoïdes de Galbot à visser une vis. Alors que les travailleurs humains le font instinctivement, le décomposer pour un robot révèle de nombreuses micro-décisions : trouver le trou, aligner la vis, appliquer la bonne pression et le bon couple, et savoir quand s'arrêter. L'ingénieur a dit à Chen que les robots Galbot pouvaient déjà saisir et manipuler des outils comme un tournevis, mais il n'était pas encore sûr qu'ils puissent gérer l'alignement précis de la vis, ou savoir avec quelle force la tourner. "Définissons les responsabilités", l'a rassuré Chen. "Ce que vous pouvez gérer de manière fiable, et ce que je prendrai en charge."
Ils se sont mis d'accord sur un objectif : pour que l'humanoïde Galbot soit viable dans l'usine, il devrait serrer une vis en moins de huit secondes. L'ingénieur s'est renversé sur sa chaise, légèrement submergé. "Vous avez une telle diversité d'expertises techniques."
"Des gènes différents", a répondu Chen avec aisance. "Nous pouvons résoudre ensemble les problèmes de l'industrie."
Après la réunion, j'ai marché un pâté de maisons vers le nord jusqu'à un centre commercial voisin, où Galbot avait installé l'un de ses robots de vente au détail derrière un kiosque promotionnel. Le modèle G1 blanc, semblable à un mannequin, était exposé, avec un travailleur humain à proximité au cas où quelque chose tournerait mal. J'ai commandé un Pocari Sweat, une boisson énergisante japonaise, sur une tablette. Le G1 a pivoté vers l'étagère, ses bras mécaniques se déployant comme des ailes, avant qu'une pince ne saisisse ma boisson. Il a placé la bouteille sur le comptoir d'un peu trop haut, si bien que la boisson a rebondi de quelques centimètres sur le côté, sans toutefois tomber.
Tout au long de notre temps ensemble, Chen avait souligné que cette technologie progressait plus vite que je ne pouvais l'imaginer. Mais mon expérience avec le G1 – essentiellement un distributeur automatique glorifié et à moitié compétent – m'a laissé sceptique. Deux mois plus tard, en février, j'ai regardé la soirée du Nouvel An lunaire depuis mon appartement. Le robot de Galbot est apparu dans un segment pré-enregistré, et il avait l'air différent. Les pinces avaient disparu, remplacées par dix doigts articulés. Les bras n'étaient plus massifs mais souples et semblables à ceux d'un humain. Lorsque le robot a attrapé une bouteille d'eau sur l'étagère, il s'est déplacé beaucoup plus vite et avec plus d'assurance qu'auparavant. Je ne sais pas dans quelle mesure cela a été monté ou mis en scène. Mais j'ai eu un aperçu de ce que ressentait Chen.
Si vous avez déjà vu un robot chinois danser ou faire du kung-fu, il y a des chances qu'il ait été fabriqué par Unitree. L'année dernière, l'entreprise a expédié plus de 5 500 robots humanoïdes, plus que toute autre entreprise au monde. Récemment, une vidéo virale a montré le concert du pop star chinois Wang Leehom à Chengdu, où des robots Unitree servaient de danseurs de fond. Elon Musk l'a republiée avec un seul mot : "Impressionnant." Ces performances virales sont un bon marketing pour la Chine, mais les principaux clients de Unitree sont des laboratoires et des universités, dont Oxford, Carnegie Mellon, UC San Diego et Boston Dynamics, qui achètent les robots et développent des logiciels pour les rendre plus intelligents. Un porte-parole m'a dit que Unitree voulait que ses robots finissent par entrer dans les usines et les foyers pour "prendre en charge les travaux dangereux, répétitifs et fastidieux pour les gens."
Un soir tard, j'étais dans un taxi à Ningbo quand j'ai reçu un message d'un porte-parole de Unitree. Nous avions prévu de nous rencontrer à leur siège social de Hangzhou le lendemain matin, mais l'entreprise avait soudainement programmé un "événement important" qui fermerait toutes les routes près du bureau. Il n'y a pas beaucoup de choses en Chine qui peuvent arrêter la circulation et perturber les emplois du temps. J'ai vérifié mon téléphone pour voir où était le président Xi Jinping : deux jours plus tôt, il avait assisté à un événement sportif à Guangzhou, mais on ne savait pas où il se rendait ensuite. Le porte-parole m'a demandé si je pouvais venir ce soir. J'ai regardé l'heure – il était déjà 19h32. "Nous serons là", m'a-t-elle assuré. Je me suis précipité à la gare.
Malgré son envergure mondiale, le siège social de Unitree est étonnamment modeste. L'entreprise occupe deux bâtiments patinés dans le quartier technologique de Hangzhou, à l'intérieur d'un ancien complexe encadré par des concessionnaires automobiles et de petites boutiques familiales. Quand je suis arrivé vers 21h, la plupart des employés de Unitree venaient juste de quitter le travail. J'ai été accueilli par trois représentants des médias qui m'ont escorté vers une zone d'exposition où une série de robots attendaient. Un casque de boxe violet oscillait au rythme d'enchaînements de coups si intenses que j'ai instinctivement reculé. À proximité, un autre robot dansait le Charleston. Ensuite, un chien robot à quatre pattes enchaînait des sauts périlleux et des figures. Tout au long de la démonstration, les présentateurs continuaient de donner des coups de pied vigoureux aux robots, mais les machines absorbaient chaque choc sans tomber.
Un développeur de Boston Dynamics, un concurrent américain, m'a dit que le matériel de Unitree est très avancé et remarquablement abordable. Leurs robots commencent à environ 1 600 dollars, tandis que les modèles américains comparables coûtent des dizaines de milliers. Le développeur de Boston Dynamics a attribué l'avantage de Unitree à des conditions structurelles. La Chine a deux vastes pôles métropolitains – le delta du Yangtsé près de Shanghai et le delta de la rivière des Perles à Shenzhen – qui abritent des réseaux denses de fournisseurs de matériel. Les fabricants de robots peuvent parfois aller chercher une pièce de rechange chez le voisin. Modifier un prototype de robot peut prendre moins d'une journée à Shenzhen, mais des semaines dans la Silicon Valley, où les pièces doivent parfois traverser plusieurs États ou océans. Cette facilité de construction explique aussi pourquoi il existe 330 types différents de robots humanoïdes en Chine. Cela transforme la destruction créatrice en une partie routinière du processus. "Nous commercialisons une génération de robots", a déclaré Harry Xu, entrepreneur en robotique et chercheur à l'Université Tsinghua. Beaucoup de cette génération échouent inévitablement. "Puis nous construisons la génération suivante."
Une autre façon de voir les industries de la robotique humanoïde aux États-Unis et en Chine est comme un spectre. À une extrémité se trouve l'humanoïde à usage général – la vision de science-fiction d'une machine capable de faire tout ce qu'un humain peut faire. À l'autre extrémité se trouve un robot entraîné à faire une chose extrêmement bien, sacrifiant la polyvalence pour la fiabilité commerciale. Pour diverses raisons – pression pour commercialiser, contrats gouvernementaux, concurrence intense qui récompense la différenciation et le profit plutôt que la recherche pure – les entreprises chinoises ont tendance à être attirées vers l'extrémité plus modeste et spécialisée. Les grandes entreprises technologiques américaines, protégées par un capital-risque plus profond et une urgence commerciale moins immédiate, visent souvent le Graal des robots à usage général. Un avenir plausible est celui où les États-Unis mènent le développement des humanoïdes généralisés, tandis que la Chine fournit au monde des robots abordables et fiables, chacun excellent dans une tâche spécifique. Les États-Unis pourraient finir par produire un seul robot capable de tondre votre pelouse, promener votre chien et garder vos enfants. Mais pendant que vous attendez, vous pourriez aussi bien acheter trois robots chinois qui s'occupent chacun d'une tâche, pour une fraction du prix.
Le lendemain de ma visite, j'ai pris un taxi pour retourner aux bureaux de Unitree pour voir ce qui se passait. Le pâté de maisons autour du périmètre avait été bouclé. Je suis descendu et j'ai marché environ un pâté de maisons jusqu'à la porte d'entrée de Unitree, où trois hommes en costume montaient la garde, scrutant chaque passant. Au-delà de trois fourgons noirs de sécurité publique, je ne pouvais rien voir. J'ai vérifié mon téléphone et j'ai vu que Xi Jinping était à 1 200 kilomètres de là, à Pékin, recevant une visite du roi Felipe VI d'Espagne. J'ai traversé la rue et j'ai héler un autre taxi. Une fois à l'intérieur, le chauffeur était curieux de savoir si j'avais vu quelque chose à l'extérieur de l'usine. Il venait de déposer un employé de Unitree et s'est empressé de spéculer : "Il doit y avoir un groupe militaire à l'intérieur."
Sa supposition était raisonnable. Il y a deux ans, la télévision d'État chinoise a diffusé des images d'exercices militaires montrant des chiens robots Unitree équipés de mitrailleuses. Des législateurs américains ont suggéré de couper Unitree des technologies américaines comme les semi-conducteurs. Unitree maintient qu'elle ne vend pas à l'armée et n'approuve pas les modifications militaires par des tiers, mais une société d'analyse basée aux États-Unis affirme que Unitree vend à des universités chinoises qui contractent avec l'armée. Ce contrôle a affecté l'industrie robotique chinoise. Un porte-parole d'une grande entreprise de robotique m'a dit que les autorités les avaient averti de ne pas parler aux médias occidentaux. Quand j'ai demandé aux porte-paroles de Unitree qui étaient les clients de l'entreprise... Quand j'ai posé des questions sur leurs clients et s'ils vendaient plus de robots à l'étranger ou en Chine, l'entreprise a simplement répondu : "Nous faisons les deux." Plus tard, lorsque j'ai demandé des précisions, Unitree a expliqué que la présence sécuritaire que j'avais vue n'était pas liée à l'armée – c'était une délégation gouvernementale venue se renseigner sur leurs robots.
La même semaine où j'ai visité Galbot avec Chen Liang, je me suis rendu à la périphérie de Pékin dans ce que la municipalité appelle le "plus grand centre de formation de robots de Chine". Le centre est géré par Leju Robotics, une entreprise dont les robots n'apprennent pas à partir de simulations mais à partir d'exemples réels fournis par des collecteurs de données humains, ou téléopérateurs. Le robot humanoïde phare de Leju, Kuavo, est déjà utilisé dans certaines usines de véhicules électriques à travers la Chine pour des tâches de base comme le déchargement de cartons.
Dans le hall, un grand écran mural affichait une carte de la Chine avec cinq points rouges lumineux marquant chaque ville où Leju a un centre de formation. À côté de chaque point se trouvait le nombre de séquences d'action collectées sur ce site. Le plus grand site était ici à Pékin, où environ 100 téléopérateurs étaient disposés en rangées ordonnées dans un coin cloisonné d'un entrepôt. Chaque poste de travail avait deux personnes assignées à un robot, effectuant différentes tâches comme essuyer une table, ranger des couverts ou déplacer un verre d'eau. À l'étage, les téléopérateurs formaient les robots à des tâches industrielles comme le tri et l'emballage de cartons. Leju et ses affiliés vendent une partie de ces données à des tiers et ont également publié publiquement une partie – 100 heures – pour que les chercheurs internationaux les utilisent pour affiner les modèles vision-langage-action.
Depuis le côté de la salle, j'ai observé un travailleur portant un casque semblable à un casque VR guider la main d'un robot pour ramasser une pomme de terre sur une table et la placer dans un panier. Le robot a ensuite attrapé un chiffon pour essuyer la table. Un autre travailleur