Mantienen el control y el equilibrio, pero no se desvían de su programación. La tecnología que Galbot está desarrollando es lo que los robóticos llaman un modelo visión-lenguaje-acción (VLA). Su objetivo es permitir que las máquinas operen en entornos desconocidos y cambiantes, muy parecido a los humanos. Actualmente, los robots de Galbot no pueden realizar de manera confiable tareas que son simples para los humanos, como lavar platos. Sin embargo, el fundador Wang ha dicho a los medios chinos que su objetivo es tener 10.000 robots manejando trabajos básicos de venta al por menor y fábricas en tres años. (Algunos pioneros de la IA, como Yann LeCun, son muy escépticos de que el enfoque actual de aprendizaje profundo pueda lograr los resultados que empresas como Galbot esperan).
La visita de Chen fue para explorar cómo se podrían usar los robots de Galbot dentro de una fábrica de vehículos eléctricos, uno de los entornos de fabricación más complejos del mundo. Lograr esto requiere entrenar a los robots en una gran cantidad de escenarios de fábrica, pero no hay una base de datos lista para esto. Para que Galbot tenga alguna posibilidad de desplegar robots en tal entorno, necesitan un especialista con décadas de experiencia en fabricación compleja. Esta persona debe definir las tareas correctas para el robot humanoide, especificar los datos que necesita aprender, e incluso compensar lo que el robot aún no puede hacer. Esa es la experiencia que Chen ofrece.
Tomamos un ascensor hasta la cima de una torre y entramos en una sala de reuniones con vista al exuberante campus verde de la Universidad de Pekín. Pronto llegó un ingeniero senior de Galbot y comenzó a informar a Chen sobre el último progreso de la empresa. Explicó que los robots Galbot habían sido desplegados recientemente en 10 farmacias de Pekín, dispensando medicamentos las 24 horas del día. Alimentados por chips de Nvidia, cada robot cuesta unos 700.000 yuanes (76.000 libras). En un momento, el ingeniero se detuvo en una diapositiva que detallaba la tecnología detrás de los humanoides de Galbot.
Antes del auge del aprendizaje profundo, señaló el ingeniero, los robóticos industriales como Chen entrenaban máquinas manualmente. Los programadores escribían instrucciones explícitas para cada movimiento. Cuando algo salía mal, depuraban el código y añadían nuevas líneas para manejar nuevas situaciones. El aprendizaje profundo promete reemplazar este código escrito a mano con el modelo VLA más flexible. Un cuello de botella importante en la creación de tales modelos, y una razón clave por la que el "momento ChatGPT" para los robots no ha llegado, es la escasez de datos de entrenamiento.
Los investigadores recopilan estos datos de dos maneras principales. La primera es un proceso manual llamado teleoperación, donde los humanos guían a un robot a través de una tarea precisa, a veces cientos de miles de veces. Cada tarea registra un paquete de datos, que incluye información visual, posicionamiento de manos, torque y profundidad, conocido como una "secuencia de acción", que luego se usa para entrenar el VLA. Este método es intensivo en mano de obra, por eso Galbot prefiere el segundo enfoque: construir entornos virtuales. "Es como **Avatar**", dijo el ingeniero, refiriéndose a la película taquillera. "No tengo que pisar físicamente el campo de batalla; solo me acuesto en mi cápsula y puedo simular todo".
El ingeniero nos mostró videos del mundo real de robots Galbot siendo probados como empleados de tienda, compañeros de cuidado de ancianos y perros robot de entrega navegando por el tráfico en vivo de la calle. Afirmó que los robots de entrega podrían estar listos en "dos o tres años" si se dedicaran suficientes recursos al proyecto, aunque aún no habían tomado esa decisión. Después de conocer todas estas posibilidades, Chen apenas podía contener su emoción. Propuso un plan para entrenar a los humanoides de Galbot para atornillar. Mientras los trabajadores humanos hacen esto por instinto, desglosarlo para un robot revela numerosas microdecisiones: encontrar el agujero, alinear el tornillo, aplicar la presión y el torque correctos, y saber cuándo parar. El ingeniero le dijo a Chen que los robots Galbot ya podían agarrar y manipular herramientas como un destornillador, pero aún no estaba seguro de que pudieran manejar la alineación precisa del tornillo, o saber con qué fuerza girarlo. "Definamos responsabilidades", lo tranquilizó Chen. "Lo que tú puedes manejar de manera confiable, y lo que yo me encargaré".
Acordaron una meta: para que el humanoide Galbot sea viable en la fábrica, necesitaría apretar un tornillo en menos de ocho segundos. El ingeniero se recostó, ligeramente abrumado. "Ustedes tienen una gama tan amplia de experiencia en ingeniería".
"Genes diferentes", respondió Chen con suavidad. "Podemos resolver los problemas de la industria juntos".
Después de la reunión, caminé una cuadra al norte hasta un centro comercial cercano, donde Galbot había instalado uno de sus robots minoristas detrás de un quiosco promocional. El modelo G1 blanco, parecido a un maniquí, estaba en exhibición, con un trabajador humano cerca por si algo salía mal. Pedí un Pocari Sweat, una bebida energética japonesa, desde una tableta. El G1 giró hacia el estante, sus brazos mecánicos sobresaliendo como alas, antes de que una pinza agarrara mi bebida. Colocó la botella en el mostrador desde una altura ligeramente excesiva, por lo que la bebida rebotó unos centímetros hacia un lado, aunque no se cayó.
Durante todo nuestro tiempo juntos, Chen había enfatizado que esta tecnología avanzaba más rápido de lo que podía imaginar. Pero mi experiencia con el G1, esencialmente una máquina expendedora glorificada y semi-competente, me dejó escéptico. Dos meses después, en febrero, vi la gala del Año Nuevo Lunar desde mi apartamento. El robot de Galbot apareció en un segmento pregrabado, y se veía diferente. Las pinzas habían desaparecido, reemplazadas por diez dedos articulados. Los brazos ya no eran voluminosos, sino ágiles y parecidos a los humanos. Cuando el robot alcanzó una botella de agua en el estante, se movió mucho más rápido y con más seguridad que antes. Cuánto de esto fue editado o escenificado, no lo sé. Pero probé un poco de lo que Chen estaba sintiendo.
Si has visto a un robot chino bailar o hacer kung fu, es probable que esté hecho por Unitree. El año pasado, la empresa envió más de 5.500 robots humanoides, más que cualquier otra empresa en el mundo. Recientemente, un video viral mostró el concierto de la estrella del pop chino Wang Leehom en Chengdu, donde robots de Unitree sirvieron como bailarines de respaldo. Elon Musk lo compartió con una palabra: "Impresionante". Estas presentaciones virales son un buen marketing para China, pero los principales clientes de Unitree son laboratorios y universidades, incluyendo Oxford, Carnegie Mellon, UC San Diego y Boston Dynamics, que compran los robots y desarrollan software para hacerlos más inteligentes. Un portavoz me dijo que Unitree quiere que sus robots eventualmente entren en fábricas y hogares para "asumir trabajos peligrosos, repetitivos y tediosos para las personas".
Una noche tarde, estaba en un taxi en Ningbo cuando recibí un mensaje de un portavoz de Unitree. Habíamos planeado reunirnos en su sede en Hangzhou a la mañana siguiente, pero la empresa había programado abruptamente un "evento importante" que cerraría todas las carreteras cerca de la oficina. No hay muchas cosas en China que puedan detener el tráfico y alterar los horarios. Revisé mi teléfono para ver dónde estaba el presidente Xi Jinping: dos días antes, había asistido a un evento deportivo en Guangzhou, pero no estaba claro hacia dónde se dirigía después. El portavoz preguntó si podía venir esta noche. Miré la hora: ya eran las 7:32 p.m. "Estaremos aquí", me aseguró. Me apresuré a la estación de tren.
A pesar de su estatura global, la sede de Unitree es sorprendentemente modesta. La empresa ocupa dos edificios desgastados en el distrito tecnológico de Hangzhou, dentro de un complejo antiguo flanqueado por concesionarios de autos y pequeñas tiendas familiares. Cuando llegué alrededor de las 9 p.m., la mayoría de los empleados de Unitree acababan de salir del trabajo. Me recibieron tres representantes de medios que me escoltaron a un área de exhibición donde esperaba una serie de robots. Un robot con un casco de boxeo morado se balanceaba mientras lanzaba combinaciones con tal intensidad que instintivamente retrocedí. Cerca, otro robot bailaba el Charleston. Luego, un perro robot de cuatro patas pasaba por volteretas y trucos. Durante toda la demostración, los presentadores seguían pateando fuerte a los robots, pero las máquinas absorbían cada golpe sin caerse.
Un desarrollador de Boston Dynamics, un competidor estadounidense, me dijo que el hardware de Unitree es muy avanzado y notablemente asequible. Sus robots comienzan alrededor de los 1.600 dólares, mientras que modelos estadounidenses comparables cuestan decenas de miles. El desarrollador de Boston Dynamics atribuyó la ventaja de Unitree a condiciones estructurales. China tiene dos grandes centros metropolitanos, el delta del río Yangtsé cerca de Shanghai y el delta del río Perla en Shenzhen, que albergan densas redes de proveedores de hardware. Los fabricantes de robots a veces pueden caminar a la puerta de al lado para una pieza de repuesto. Modificar un prototipo de robot puede tomar menos de un día en Shenzhen, pero semanas en Silicon Valley, donde las piezas pueden necesitar viajar a través de múltiples estados u océanos. Esta facilidad de construcción también ayuda a explicar por qué hay 330 tipos diferentes de robots humanoides en China. Convierte la destrucción creativa en una parte rutinaria del proceso. "Comercializamos una generación de robots", dijo Harry Xu, un emprendedor e investigador robótico de la Universidad de Tsinghua. Muchos de esa generación inevitablemente fracasan. "Luego construimos la siguiente generación".
Otra forma de ver las industrias de robótica humanoide en EE.UU. y China es como un espectro. En un extremo está el humanoide de propósito general, la visión de ciencia ficción de una máquina que puede hacer cualquier cosa que un humano pueda. En el otro extremo está un robot entrenado para hacer una cosa extremadamente bien, sacrificando versatilidad por confiabilidad comercial. Por varias razones, presión para comercializar, contratos gubernamentales, competencia intensa que recompensa la diferenciación y el beneficio sobre la investigación pura, las empresas chinas tienden a ser atraídas hacia el extremo más modesto y especializado. Las principales empresas tecnológicas estadounidenses, protegidas por un capital de riesgo más profundo y una urgencia comercial menos inmediata, a menudo apuntan al santo grial de los robots de propósito general. Un futuro plausible es uno donde EE.UU. lidere el desarrollo de humanoides generalizados, mientras China suministra al mundo robots asequibles y confiables, cada uno sobresaliendo en una tarea específica. EE.UU. puede eventualmente producir un solo robot que pueda cortar tu césped, pasear a tu perro y cuidar a tus hijos. Pero mientras esperas, bien podrías comprar tres robots chinos que manejen cada uno una tarea, a una fracción del precio.
La mañana después de mi visita, tomé un taxi de regreso a las oficinas de Unitree para ver qué estaba pasando. La manzana alrededor del perímetro había sido acordonada. Bajé y caminé aproximadamente una cuadra hasta la puerta principal de Unitree, donde tres hombres con traje montaban guardia, escaneando a cada transeúnte. Más allá de tres furgonetas negras de seguridad pública, no podía ver nada. Revisé mi teléfono y vi que Xi Jinping estaba a 750 millas de distancia en Pekín, recibiendo una visita del rey Felipe VI de España. Crucé la calle y detuve otro taxi. Una vez dentro, el conductor tenía curiosidad por saber si había visto algo fuera de la fábrica. Acababa de dejar a un empleado de Unitree y se apresuró a especular: "Debe haber un grupo del ejército adentro".
Su suposición era razonable. Hace dos años, la televisión estatal china transmitió imágenes de ejercicios militares que mostraban perros robot de Unitree equipados con ametralladoras. Legisladores estadounidenses han sugerido cortar a Unitree de tecnologías estadounidenses como semiconductores. Unitree mantiene que no vende al ejército ni respalda modificaciones militares por terceros, pero una firma de análisis con sede en EE.UU. afirma que Unitree vende a universidades chinas que contratan con el ejército. Este escrutinio ha afectado a la industria robótica china. Un portavoz de una importante empresa de robótica me dijo que las autoridades les habían advertido que no hablaran con los medios occidentales. Cuando pregunté a los portavoces de Unitree quiénes eran los clientes de la empresa... Cuando pregunté sobre sus clientes y si vendían más robots en el extranjero o en China, la empresa simplemente respondió: "Hacemos ambas cosas". Más tarde, cuando seguí preguntando, Unitree explicó que la presencia de seguridad que había visto no estaba relacionada con el ejército, era una delegación gubernamental visitando para aprender sobre sus robots.
Durante la misma semana que visité Galbot con Chen Liang, viajé a las afueras de Pekín a lo que el gobierno municipal llama el "centro de entrenamiento de robots más grande de China". El centro es dirigido por Leju Robotics, una empresa cuyos robots aprenden no de simulaciones, sino de ejemplos del mundo real proporcionados por recolectores de datos humanos, o teleoperadores. El robot humanoide insignia de Leju, Kuavo, ya se está utilizando en algunas fábricas de vehículos eléctricos en toda China para tareas básicas como desapilar cajas de cartón.
En el vestíbulo, un gran monitor mural mostraba un mapa de China con cinco puntos rojos brillantes que marcaban cada ciudad donde Leju tiene un centro de entrenamiento. Junto a cada punto estaba el número de secuencias de acción recolectadas en ese sitio. El sitio más grande estaba aquí en Pekín, donde unos 100 teleoperadores estaban organizados en filas ordenadas en una esquina seccionada de un almacén. Cada estación de trabajo tenía dos personas asignadas a un robot, realizando diferentes tareas como limpiar una mesa, organizar cubiertos o mover un vaso de agua. Arriba, los teleoperadores entrenaban robots en tareas industriales como clasificar y empacar cajas. Leju y sus afiliadas venden algunos de estos datos a terceros y también han lanzado públicamente una parte, 100 horas, para que investigadores internacionales las usen en el refinamiento de modelos visión-lenguaje-acción.
Desde un lado de la sala, observé a un trabajador que llevaba un casco similar a VR guiar la mano de un robot para recoger una papa de una mesa y colocarla en una canasta. Luego, el robot alcanzó un trapo para limpiar la mesa. Otro trabajador se sentó frente a una laptop, registrando en una base de datos si cada acción era exitosa. Arriba, los ingenieros procesaban estos datos, que eventualmente se usarían para entrenar un modelo visión-lenguaje-acción. En otra estación, un trabajador guió a un robot para verter agua en un tazón, pero falló, derramando agua sobre el borde. El compañero humano se levantó para limpiar el desorden, y repitieron la secuencia.
Los teleoperadores estaban divididos aproximadamente a partes iguales entre hombres y mujeres, la mayoría parecía tener entre finales de la adolescencia y principios de los veinte. Fueron contratados a través de una empresa de despacho de mano de obra, parte de la red a menudo invisible que sostiene la economía china. Estos despachadores reclutan trabajadores de pueblos y colegios vocacionales, moviéndolos estacionalmente a donde se necesita mano de obra, desde líneas de ensamblaje de iPhone hasta hacer cumplir confinamientos pandémicos. Ahora, el mismo sistema suministra entrenadores para la era de los robots humanoides.
Los teleoperadores de Leju vinieron de Shandong en el este de China, donde eran parte de un programa de formación vocacional en una universidad local, estudiando carreras como "big data" e "internet". Antes del auge de la robótica, muchos de estos trabajadores podrían haber etiquetado señales de tráfico para sistemas de conducción autónoma o moderado contenido para plataformas tecnológicas. Me dijeron que normalmente realizan 15 tareas diferentes al día con los robots