A Nvidia anunciou novas infraestruturas e modelos de IA, enquanto está a trabalhar para construir a tecnologia da espinha dorsal para IA física, incluindo robôs e veículos autónomos capazes de perceber e interagir com o mundo real. Assim, anunciou o Alpamayo-R1, um modelo de linguagem de visão de raciocínio aberto para pesquisa em condução autónoma.
Na conferência NeurIPS AI, que decorreu em San Diego, Califórnia, destacou que este é o primeiro modelo de ação de linguagem com visão focado na condução autónoma. Estes modelos de linguagem visual podem processar texto e imagens juntos, permitindo que veículos "vejam" o ambiente e tomem decisões baseadas no que percebem.
Esse novo modelo é baseado no modelo Cosmos-Reason da Nvidia, um modelo de raciocínio que pensa nas decisões antes de responder. A gigante lançou inicialmente a família de modelos Cosmos em janeiro de 2025 e, mais recentemente, em agosto.
Tecnologias como o Alpamayo-R1 são críticas para empresas que procuram alcançar o nível 4 de condução autónoma, o que significa total autonomia numa área definida e sob circunstâncias específicas. A Nvidia espera que esse tipo de modelo de raciocínio dê aos veículos autónomos o "bom senso" para abordar melhor decisões de direção complexas, como os humanos fazem.
Além do novo modelo de visão, a Nvidia também disponibilizou novos guias passo a passo, recursos de inferência e fluxos de trabalho pós-treino para o GitHub - coletivamente chamados de Cosmos Cookbook - para ajudar os developpers a usar e treinar melhor os modelos Cosmos para seus casos de uso específicos. O guia aborda curadoria de dados, geração de dados sintéticos e avaliação de modelos.
Esses anúncios ocorrem quando a gigante está a avançar em força para a IA física, como uma nova via para suas GPUs avançadas de IA. O cofundador e CEO da Nvidia, Jensen Huang, afirmou repetidamente que a próxima onda de IA é a IA física.
Reforçando a sua posição como grande líder mundial nos chips de IA