Um robô humanoide que precisa pegar uma caixa, atravessar um corredor e evitar um funcionário que cruza seu caminho enfrenta, na prática, o mesmo dilema que qualquer ser humano: parte da tarefa exige apenas reagir.
A Nvidia resolveu esse problema copiando a própria arquitetura da cognição humana — e batizou o resultado de GR00T, o modelo de fundação que funciona como “cérebro” de boa parte dos robôs humanoides do mercado atual.
A ideia, descrita pela própria companhia, é simples de enunciar e complexa de construir: dividir a inteligência do robô em dois sistemas que operam em velocidades diferentes, mas de forma conjunta, um “Sistema 2”, devagar e deliberado, e um “Sistema 1”, rápido e quase instintivo.
O cérebro que pensa antes de agir
O Sistema 2 é a parte do GR00T que olha para o mundo e decide o que fazer.
Tecnicamente, é um modelo de visão e linguagem, na mesma categoria de tecnologia que
permite a um chatbot entender uma foto e responder perguntas sobre ela.
Aqui, esse modelo recebe imagens captadas pelas câmeras do robô e instruções em
linguagem natural, e a partir disso decompõe uma tarefa complexa em etapas menores:
para “guardar a caixa na prateleira de cima”, o sistema precisa primeiro entender onde está a caixa, onde está a prateleira, e em que ordem mover o corpo para conectar as duas coisas.
Esse raciocínio é deliberado de propósito. A Nvidia o compara à cognição “lenta” descrita
por psicólogos — o tipo de pensamento que avalia contexto, antecipa consequências e só
então decide um plano de ação.
O cérebro que reage em tempo real É aí que entra o Sistema 1. Ele recebe o plano elaborado pelo Sistema 2 e o traduz em comandos motores contínuos — a sequência exata de movimentos das juntas, dos dedos e das pernas do robô, ajustada a cada fração de segundo conforme o corpo se move no espaço real.
Tecnicamente, essa camada usa uma arquitetura chamada diffusion transformer:
um tipo de rede neural que, em vez de calcular um movimento perfeito de uma só vez, refina repetidamente um rascunho de movimento até chegar a uma trajetória suave e estável.
A metáfora que a própria Nvidia usa é a do reflexo: assim como um humano não “pensa”
conscientemente sobre cada músculo que aciona para pegar uma xícara de café, o Sistema
1 do GR00T opera de forma quase automática, liberando o Sistema 2 para continuar
planejando os próximos passos da tarefa.
Treinar esse tipo de sistema exige uma quantidade de dados que nenhuma empresa
conseguiria gerar só com robôs físicos repetindo tarefas no mundo real — processo lento,
caro e arriscado.
A solução da Nvidia foi combinar três fontes diferentes: dados reais coletados de robôs em
operação, simulações sintéticas geradas dentro da plataforma
Omniverse da própria empresa, e vídeos em primeira pessoa de humanos realizando tarefas do cotidiano, captados por câmeras vestíveis.
Esse último ponto é o que a Nvidia chama de “lei de escala da destreza”: segundo a
empresa, treinar o modelo com mais de 20 mil horas de vídeo humano gravado em
primeira pessoa melhora, de forma previsível, a capacidade do robô de executar tarefas
delicadas com os dedos — sem precisar de teleoperação em massa, técnica mais cara em
que um humano controla remotamente cada movimento do robô para gerar dados de
treinamento.
Um cérebro, vários corpos Uma das apostas centrais do projeto é que o mesmo “cérebro” sirva para corpos diferentes — robôs de fabricantes distintos, com proporções, números de juntas e capacidades físicas variadas. A arquitetura do GR00T resolve isso com camadas de codificação específicas para cada “corporificação”, que traduzem as particularidades físicas de cada robô para uma linguagem interna comum, compreendida igualmente pelos dois sistemas
Fonte: Exame
