Eles mantêm o controle e o equilíbrio, mas não se desviam de sua programação. A tecnologia que a Galbot está desenvolvendo é o que os roboticistas chamam de modelo visão-linguagem-ação (VLA). O objetivo é permitir que as máquinas operem em ambientes desconhecidos e em mudança, assim como os humanos. Atualmente, os robôs da Galbot não conseguem realizar com confiabilidade tarefas simples para os humanos, como lavar louça. No entanto, o fundador Wang disse à mídia chinesa que pretende ter 10 mil robôs realizando trabalhos básicos no varejo e em fábricas dentro de três anos. (Alguns pioneiros da IA, como Yann LeCun, são altamente céticos de que a atual abordagem de aprendizado profundo possa alcançar os resultados que empresas como a Galbot esperam.)
A visita de Chen foi para explorar como os robôs da Galbot poderiam ser usados dentro de uma fábrica de veículos elétricos — um dos ambientes de manufatura mais complexos do mundo. Alcançar isso requer treinar os robôs em um vasto número de cenários de fábrica, mas não há um banco de dados pronto para isso. Para que a Galbot tenha alguma chance de implantar robôs em tal ambiente, eles precisam de um especialista com décadas de experiência em manufatura complexa. Essa pessoa deve definir as tarefas certas para o robô humanóide, especificar os dados que ele precisa aprender e até compensar o que o robô ainda não consegue fazer. Essa é a expertise que Chen oferece.
Pegamos um elevador até o topo de uma torre e entramos em uma sala de reuniões com vista para o exuberante campus verde da Universidade de Pequim. Logo chegou um engenheiro sênior da Galbot e começou a informar Chen sobre o progresso mais recente da empresa. Ele explicou que os robôs da Galbot haviam sido recentemente implantados em 10 farmácias de Pequim, dispensando medicamentos 24 horas por dia. Alimentados por chips da Nvidia, cada robô custa cerca de 700 mil yuans (76 mil libras). Em certo momento, o engenheiro parou em um slide detalhando a tecnologia por trás dos humanóides da Galbot.
Antes da ascensão do aprendizado profundo, observou o engenheiro, roboticistas industriais como Chen treinavam máquinas manualmente. Programadores escreviam instruções explícitas para cada movimento. Quando algo dava errado, eles depuravam o código e adicionavam novas linhas para lidar com novas situações. O aprendizado profundo promete substituir esse código escrito à mão pelo modelo VLA mais flexível. Um grande gargalo na criação de tais modelos — e uma razão fundamental pela qual o "momento ChatGPT" para robôs ainda não chegou — é a escassez de dados de treinamento.
Os pesquisadores coletam esses dados de duas maneiras principais. A primeira é um processo manual chamado teleoperação, onde humanos guiam um robô através de uma tarefa precisa, às vezes centenas de milhares de vezes. Cada tarefa grava um pacote de dados — incluindo informações visuais, posicionamento das mãos, torque e profundidade — conhecido como "sequência de ação", que posteriormente é usado para treinar o VLA. Este método é intensivo em mão de obra, por isso a Galbot prefere a segunda abordagem: construir ambientes virtuais. "É como Avatar", disse o engenheiro, referindo-se ao filme blockbuster. "Eu não preciso pisar fisicamente no campo de batalha; apenas me deito na minha cápsula e posso simular tudo."
O engenheiro nos mostrou vídeos do mundo real de robôs da Galbot sendo testados como atendentes de loja, acompanhantes de idosos e cães robôs de entrega navegando no tráfego ao vivo das ruas. Ele afirmou que os robôs de entrega poderiam estar prontos em "dois a três anos" se recursos suficientes fossem dedicados ao projeto — embora ainda não tivessem tomado essa decisão. Depois de conhecer todas essas possibilidades, Chen mal conseguia conter sua empolgação. Ele propôs um plano para treinar os humanóides da Galbot para apertar um parafuso. Enquanto trabalhadores humanos fazem isso instintivamente, decompor a tarefa para um robô revela inúmeras microdecisões: encontrar o furo, alinhar o parafuso, aplicar a pressão e o torque corretos e saber quando parar. O engenheiro disse a Chen que os robôs da Galbot já conseguiam agarrar e manipular ferramentas como uma chave de fenda, mas ainda não tinha certeza se conseguiriam lidar com o alinhamento preciso do parafuso ou saber com que força girá-lo. "Vamos definir responsabilidades", Chen o tranquilizou. "O que você pode lidar com confiança, e o que eu assumirei."
Eles concordaram com um objetivo: para o humanóide da Galbot ser viável na fábrica, ele precisaria apertar um parafuso em menos de oito segundos. O engenheiro recostou-se, levemente sobrecarregado. "Vocês têm uma gama tão ampla de conhecimentos de engenharia."
"Genes diferentes", respondeu Chen suavemente. "Podemos resolver os problemas da indústria juntos."
Após a reunião, caminhei um quarteirão ao norte até um shopping center próximo, onde a Galbot havia instalado um de seus robôs de varejo atrás de um quiosque promocional. O modelo G1, branco e parecido com um manequim, estava em exibição, com um trabalhador humano por perto caso algo desse errado. Fiz um pedido de Pocari Sweat, uma bebida energética japonesa, em um tablet. O G1 girou em direção à prateleira, seus braços mecânicos saindo como asas, antes que uma garra pegasse minha bebida. Ele colocou a garrafa no balcão de uma altura um pouco alta demais, então a bebida quicou alguns centímetros para o lado, embora não tenha caído.
Durante todo o nosso tempo juntos, Chen enfatizou que essa tecnologia estava avançando mais rápido do que eu poderia imaginar. Mas minha experiência com o G1 — essencialmente uma máquina de venda automática semi-competente glorificada — me deixou cético. Dois meses depois, em fevereiro, assisti à gala do Ano Novo Lunar do meu apartamento. O robô da Galbot apareceu em um segmento pré-gravado e parecia diferente. As garras haviam desaparecido, substituídas por dez dedos articulados. Os braços não eram mais volumosos, mas ágeis e semelhantes aos humanos. Quando o robô pegou uma garrafa de água na prateleira, ele se moveu muito mais rápido e com mais segurança do que antes. Quanto disso foi editado ou encenado, eu não sei. Mas tive um gostinho do que Chen estava sentindo.
Se você já viu um robô chinês dançar ou fazer kung fu, é provável que tenha sido feito pela Unitree. No ano passado, a empresa enviou mais de 5.500 robôs humanóides, mais do que qualquer outra empresa no mundo. Recentemente, um vídeo viral mostrou o show do astro pop chinês Wang Leehom em Chengdu, onde robôs da Unitree serviram como dançarinos de apoio. Elon Musk republicou com uma palavra: "Impressionante". Essas performances virais são um bom marketing para a China, mas os principais clientes da Unitree são laboratórios e universidades, incluindo Oxford, Carnegie Mellon, UC San Diego e Boston Dynamics, que compram os robôs e desenvolvem software para torná-los mais inteligentes. Um porta-voz me disse que a Unitree quer que seus robôs eventualmente entrem em fábricas e casas para "assumir trabalhos perigosos, repetitivos e tediosos para as pessoas".
Tarde da noite, eu estava em um táxi em Ningbo quando recebi uma mensagem de um porta-voz da Unitree. Tínhamos planejado nos encontrar em sua sede em Hangzhou na manhã seguinte, mas a empresa havia abruptamente agendado um "evento importante" que fecharia todas as estradas perto do escritório. Não há muitas coisas na China que podem parar o trânsito e atrapalhar agendas. Verifiquei meu telefone para ver onde o presidente Xi Jinping estava: dois dias antes, ele havia participado de um evento esportivo em Guangzhou, mas não estava claro para onde ele iria em seguida. O porta-voz perguntou se eu poderia vir hoje à noite. Olhei a hora — já eram 19h32. "Estaremos aqui", ela me garantiu. Corri para a estação de trem.
Apesar de seu estatura global, a sede da Unitree é surpreendentemente modesta. A empresa ocupa dois edifícios desgastados no distrito de tecnologia de Hangzhou, dentro de um complexo antigo ladeado por concessionárias de automóveis e pequenas lojas familiares. Quando cheguei por volta das 21h, a maioria dos funcionários da Unitree estava saindo do trabalho. Fui recebido por três representantes de mídia que me acompanharam até uma área de exposição onde uma série de robôs aguardava. Um capacete de boxe roxo balançava enquanto lançava combinações com tanta intensidade que instintivamente dei um passo para trás. Nas proximidades, outro robô dançava o Charleston. Em seguida, um cão robótico de quatro patas passava por cambalhotas e truques. Durante toda a demonstração, os apresentadores continuavam chutando os robôs com força, mas as máquinas absorviam cada golpe sem tombar.
Um desenvolvedor da Boston Dynamics, concorrente americana, me disse que o hardware da Unitree é altamente avançado e notavelmente acessível. Seus robôs começam em cerca de US$ 1.600, enquanto modelos americanos comparáveis custam dezenas de milhares. O desenvolvedor da Boston Dynamics atribuiu a vantagem da Unitree a condições estruturais. A China tem dois grandes centros metropolitanos — o Delta do Rio Yangtzé, perto de Xangai, e o Delta do Rio das Pérolas, em Shenzhen — que abrigam redes densas de fornecedores de hardware. Fabricantes de robôs às vezes podem ir ao lado para pegar uma peça de reposição. Ajustar um protótipo de robô pode levar menos de um dia em Shenzhen, mas semanas no Vale do Silício, onde as peças podem precisar viajar por vários estados ou oceanos. Essa facilidade de construção também ajuda a explicar por que existem 330 tipos diferentes de robôs humanóides na China. Isso transforma a destruição criativa em uma parte rotineira do processo. "Comercializamos uma geração de robôs", disse Harry Xu, empreendedor e pesquisador de robótica da Universidade Tsinghua. Muitos dessa geração inevitavelmente falham. "Então construímos a próxima geração."
Outra maneira de ver as indústrias de robótica humanóide nos EUA e na China é como um espectro. Em uma extremidade está o humanóide de propósito geral — a visão de ficção científica de uma máquina que pode fazer tudo o que um humano faz. Na outra extremidade está um robô treinado para fazer uma coisa extremamente bem, sacrificando a versatilidade pela confiabilidade comercial. Por várias razões — pressão para comercializar, contratos governamentais, competição intensa que recompensa diferenciação e lucro em vez de pesquisa pura — as empresas chinesas tendem a ser puxadas para a extremidade mais modesta e especializada. Grandes empresas de tecnologia americanas, protegidas por capital de risco mais profundo e menos urgência comercial imediata, muitas vezes visam o santo graal dos robôs de propósito geral. Um futuro plausível é aquele em que os EUA lideram o desenvolvimento de humanóides generalizados, enquanto a China fornece ao mundo robôs acessíveis e confiáveis, cada um se destacando em uma tarefa específica. Os EUA podem eventualmente produzir um único robô que pode cortar sua grama, passear com seu cachorro e cuidar de seus filhos. Mas enquanto você espera, pode muito bem comprar três robôs chineses que cada um cuida de uma tarefa, por uma fração do preço.
Na manhã seguinte à minha visita, peguei um táxi de volta aos escritórios da Unitree para ver o que estava acontecendo. O quarteirão ao redor do perímetro havia sido isolado. Saí e caminhei cerca de um quarteirão até o portão principal da Unitree, onde três homens de terno faziam guarda, escaneando cada transeunte. Além de três vans pretas de segurança pública, não consegui ver nada. Verifiquei meu telefone e vi que Xi Jinping estava a 1.200 km de distância, em Pequim, recebendo uma visita do rei Filipe VI da Espanha. Atravessei a rua e parei outro táxi. Uma vez dentro, o motorista ficou curioso se eu tinha visto algo fora da fábrica. Ele acabara de deixar um funcionário da Unitree e foi rápido em especular: "Deve ter um grupo do exército lá dentro."
Seu palpite era razoável. Dois anos atrás, a televisão estatal chinesa transmitiu imagens de exercícios militares mostrando cães robôs da Unitree equipados com metralhadoras. Legisladores americanos sugeriram cortar a Unitree de tecnologias dos EUA, como semicondutores. A Unitree afirma que não vende para o exército nem endossa modificações militares por terceiros, mas uma empresa de análise sediada nos EUA afirma que a Unitree vende para universidades chinesas que contratam com o exército. Esse escrutínio afetou a indústria de robótica da China. Um porta-voz de uma grande empresa de robótica me disse que haviam sido avisados pelas autoridades para não falar com a mídia ocidental. Quando perguntei aos porta-vozes da Unitree quem eram os clientes da empresa... Quando perguntei sobre seus clientes e se vendiam mais robôs no exterior ou na China, a empresa simplesmente respondeu: "Fazemos ambos." Mais tarde, quando acompanhei, a Unitree explicou que a presença de segurança que eu tinha visto não estava relacionada ao exército — era uma delegação governamental visitando para conhecer seus robôs.
Durante a mesma semana em que visitei a Galbot com Chen Liang, viajei para os arredores de Pequim para o que o governo municipal chama de "maior centro de treinamento de robôs da China". O centro é administrado pela Leju Robotics, uma empresa cujos robôs aprendem não com simulações, mas com exemplos do mundo real fornecidos por coletores de dados humanos, ou teleoperadores. O robô humanóide carro-chefe da Leju, Kuavo, já está sendo usado em algumas fábricas de veículos elétricos em toda a China para tarefas básicas como desempilhar caixas de papelão.
No saguão, um grande monitor de parede exibia um mapa da China com cinco pontos vermelhos brilhantes marcando cada cidade onde a Leju tem um centro de treinamento. Ao lado de cada ponto estava o número de sequências de ação coletadas naquele local. O maior local era ali em Pequim, onde cerca de 100 teleoperadores estavam dispostos em fileiras ordenadas em um canto separado de um armazém. Cada estação de trabalho tinha duas pessoas designadas para um robô, realizando tarefas diferentes como limpar uma mesa, organizar talheres ou mover um copo d'água. No andar de cima, teleoperadores treinavam robôs em tarefas industriais como classificar e empacotar caixas. A Leju e suas afiliadas vendem parte desses dados para terceiros e também liberaram publicamente uma parte — equivalente a 100 horas — para pesquisadores internacionais usarem no refinamento de modelos visão-linguagem-ação.
Do lado da sala, observei um trabalhador usando um headset semelhante a VR guiar a mão de um robô para pegar uma batata de uma mesa e colocá-la em uma cesta. O robô então pegou um pano para limpar a mesa. Outro trabalhador sentou-se em um laptop, registrando se cada ação foi bem-sucedida em um banco de dados. No andar de cima, engenheiros processavam esses dados, que eventualmente seriam usados para treinar um modelo visão-linguagem-ação. Em outra estação, um trabalhador guiou um robô para despejar água em uma tigela, mas ele errou, derramando água pela borda. O parceiro humano levantou-se para limpar a bagunça, e eles repetiram a sequência.
Os teleoperadores eram aproximadamente divididos igualmente entre homens e mulheres, a maioria aparentando estar no final da adolescência ou início dos vinte anos. Eles foram contratados por meio de uma empresa de despacho de mão