A Nvidia acaba de admitir que a era da GPU de uso geral está terminando

A Nvidia acaba de admitir que a era da GPU de uso geral está terminando

O acordo de licenciamento estratégico de US$ 20 bilhões da Nvidia com a Groq representa um dos primeiros movimentos claros em uma luta em quatro frentes sobre a futura pilha de IA. 2026 é quando essa luta se torna óbvia para os construtores de empresas.

Para os tomadores de decisão técnicos com quem conversamos todos os dias – as pessoas que constroem os aplicativos de IA e os pipelines de dados que os impulsionam – este acordo é um sinal de que a era da GPU de tamanho único como resposta padrão de inferência de IA está terminando.

Estamos entrando na era do arquitetura de inferência desagregadaonde o próprio silício está sendo dividido em dois tipos diferentes para acomodar um mundo que exige contexto massivo e raciocínio instantâneo.

Por que a inferência está quebrando a arquitetura da GPU em duas

Para entender por que o CEO da Nvidia, Jensen Huang, desperdiçou um terço de sua pilha de dinheiro de US$ 60 bilhões em um acordo de licenciamento, é preciso observar as ameaças existenciais que convergem para a participação de mercado de 92% relatada por sua empresa.

A indústria atingiu um ponto de inflexão no final de 2025: pela primeira vez, a inferência – a fase em que os modelos treinados realmente funcionam – ultrapassou o treinamento em termos de receita total do data center, de acordo com a Deloitte. Neste novo "inferência invertida," as métricas mudaram. Embora a precisão continue sendo a base, a batalha agora está sendo travada pela latência e pela capacidade de manter "estado" em agentes autônomos.

Existem quatro frentes nessa batalha, e cada frente aponta para a mesma conclusão: as cargas de trabalho de inferência estão se fragmentando mais rápido do que as GPUs podem generalizar.

1. Quebrando a GPU em duas: pré-preenchimento vs. decodificação

Gavin Baker, um investidor da Groq (e, portanto, tendencioso, mas também excepcionalmente fluente na arquitetura), resumiu de forma clara o principal motivador do negócio da Groq: “A inferência é a desagregação em pré-preenchimento e decodificação”.

Pré-preenchimento e decodificar são duas fases distintas:

  • A fase de pré-preenchimento: Pense nisso como o usuário "incitar" estágio. O modelo deve ingerir grandes quantidades de dados — seja uma base de código de 100.000 linhas ou uma hora de vídeo — e calcular uma compreensão contextual. Isso é "vinculado à computação," exigindo multiplicação massiva de matrizes, na qual as GPUs da Nvidia são historicamente excelentes.

  • A fase de geração (decodificação): Este é o token por token real "geração.” Depois que o prompt é ingerido, o modelo gera uma palavra (ou token) por vez, alimentando cada uma delas de volta ao sistema para prever a próxima. Isto é "limite de largura de banda de memória." Se os dados não conseguirem passar da memória para o processador com rapidez suficiente, o modelo falha, não importa quão poderosa seja a GPU. (É aqui que a Nvidia era fraca e onde brilha a unidade de processamento de linguagem especial (LPU) da Groq e sua memória SRAM relacionada. Mais sobre isso em breve.)

Nvidia anunciou um próximo Vera Rubin família de chips que está sendo arquitetada especificamente para lidar com essa divisão. O Rubin CPX componente desta família é o designado "pré-preencher" robusto, otimizado para enormes janelas de contexto de 1 milhão de tokens ou mais. Para lidar com esta escala de forma acessível, ele se afasta das despesas exorbitantes de memória de alta largura de banda (HBM) – A atual memória padrão ouro da Nvidia que fica ao lado da matriz da GPU – e, em vez disso, utiliza 128 GB de um novo tipo de memória, GDDR7. Embora a HBM forneça velocidade extrema (embora não tão rápida quanto a memória estática de acesso aleatório (SRAM) da Groq), seu fornecimento em GPUs é limitado e seu custo é uma barreira à escala; O GDDR7 oferece uma maneira mais econômica de ingerir conjuntos de dados massivos.

Enquanto isso, o "Com sabor de Groq" silício, que a Nvidia está integrando em seu roteiro de inferência, servirá como tecnologia de alta velocidade "decodificar" motor. Trata-se de neutralizar uma ameaça de arquiteturas alternativas como as TPUs do Google e manter o domínio de CUDA, O ecossistema de software da Nvidia que serviu como principal fosso por mais de uma década.

Tudo isso foi suficiente para Baker, o investidor da Groq, prever que a decisão da Nvidia de licenciar a Groq fará com que todos os outros chips especializados de IA sejam cancelados – isto é, fora da TPU do Google, do AI5 da Tesla e do Trainium da AWS.

2. O poder diferenciado da SRAM

No coração da tecnologia da Groq está SRAM. Ao contrário da DRAM encontrada no seu PC ou do HBM em uma GPU Nvidia H100, a SRAM é gravada diretamente na lógica do processador.

Michael Stewart, sócio-gerente do fundo de risco da Microsoft, M12, descreve a SRAM como a melhor para mover dados em distâncias curtas com o mínimo de energia. "A energia para se mover um pouco na SRAM é de 0,1 picojoules ou menos," Stewart disse. "Movê-lo entre a DRAM e o processador é cerca de 20 a 100 vezes pior."

No mundo de 2026, onde os agentes devem raciocinar em tempo real, o SRAM atua como o melhor "bloco de notas": um espaço de trabalho de alta velocidade onde o modelo pode manipular operações simbólicas e processos de raciocínio complexos sem o "ciclos desperdiçados" de transporte de memória externa.

No entanto, a SRAM tem uma grande desvantagem: é fisicamente volumosa e cara de fabricar, o que significa que a sua capacidade é limitada em comparação com a DRAM. É aqui que Val Bercovici, diretor de IA da Weka, outra empresa que oferece memória para GPUs, vê a segmentação do mercado.

Cargas de trabalho de IA compatíveis com Groq – onde a SRAM tem vantagem – são aquelas que usam modelos pequenos de 8 bilhões de parâmetros ou menos, disse Bercovici. Este não é um mercado pequeno, no entanto. “É apenas um segmento de mercado gigante que não foi atendido pela Nvidia, que era inferência de borda, baixa latência, robótica, voz, dispositivos IoT – coisas que queremos rodando em nossos telefones sem a nuvem para conveniência, desempenho ou privacidade," ele disse.

Este 8B "ponto ideal" é significativo porque 2025 viu uma explosão em destilação modeloonde muitas empresas estão reduzindo modelos massivos em versões menores altamente eficientes. Embora a SRAM não seja prática para o trilhão de parâmetros "fronteira" modelos, é perfeito para esses modelos menores e de alta velocidade.

3. A ameaça antrópica: a ascensão da ‘pilha portátil’

Talvez o motivador mais subestimado deste acordo seja o sucesso da Anthropic em tornar sua pilha portátil entre aceleradores.

A empresa foi pioneira em uma abordagem de engenharia portátil para treinamento e inferência – basicamente uma camada de software que permite que seus modelos Claude sejam executados em várias famílias de aceleradores de IA – incluindo GPUs da Nvidia e TPUs Ironwood do Google. Até recentemente, o domínio da Nvidia estava protegido porque executar modelos de alto desempenho fora da pilha da Nvidia era um pesadelo técnico. “É antrópico”, disse-me Bercovici de Weka. “O fato de a Anthropic ter sido capaz de… construir uma pilha de software que pudesse funcionar tanto em TPUs quanto em GPUs, não acho que isso esteja sendo apreciado o suficiente no mercado.”

(Divulgação: Weka é patrocinadora de eventos VentureBeat.)

A Anthropic recentemente se comprometeu a acessar até 1 milhão de TPUs do Google, representando mais de um gigawatt de capacidade computacional. Essa abordagem multiplataforma garante que a empresa não fique refém dos preços ou das restrições de fornecimento da Nvidia. Portanto, para a Nvidia, o acordo com a Groq é igualmente uma medida defensiva. Ao integrar o IP de inferência ultrarrápido da Groq, a Nvidia está garantindo que as cargas de trabalho mais sensíveis ao desempenho – como aquelas que executam modelos pequenos ou como parte de agentes em tempo real – possam ser acomodadas no ecossistema CUDA da Nvidia, mesmo enquanto os concorrentes tentam abandonar o navio para as TPUs Ironwood do Google. CUDA é o software especial que a Nvidia fornece aos desenvolvedores para integrar GPUs.

4. A guerra agente do “Estado”: ​​Manus e o KV Cache

O momento deste acordo com a Groq coincide com a aquisição do agente pioneiro pela Meta Manus apenas dois dias atrás. A importância de Manus foi em parte a sua obsessão com estado.

Se um agente não consegue lembrar o que fez há 10 passos, isso será inútil para tarefas do mundo real, como pesquisa de mercado ou desenvolvimento de software. Cache KV (cache de valor-chave) é o "memória de curto prazo" que um LLM constrói durante a fase de pré-preenchimento.

Manus relatou que para agentes de nível de produção, a proporção de tokens de entrada para tokens de saída pode chegar a 100:1. Isso significa que para cada palavra que um agente diz, é "pensamento" e "lembrando" 100 outros. Nesse ambiente, a taxa de acertos do KV Cache é a métrica mais importante para um agente de produção, disse Manus. Se esse cache for "despejado" da memória, o agente perde sua linha de pensamento e o modelo deve queimar muita energia para recomputar o prompt.

A SRAM da Groq pode ser uma "bloco de notas" para esses agentes – embora, novamente, principalmente para modelos menores – porque permite a recuperação quase instantânea desse estado. Combinado com Nvidia Dínamo framework e o KVBM, a Nvidia está construindo um "sistema operacional de inferência" que pode classificar esse estado em SRAM, DRAM e outras ofertas baseadas em flash como a do Weka de Bercovici.

Thomas Jorgensen, diretor sênior de Capacitação Tecnológica da Supermicro, especializada na construção de clusters de GPUs para grandes empresas, me disse em setembro que a computação não é mais o principal gargalo para clusters avançados. Alimentar dados para GPUs era o gargalo, e quebrar esse gargalo requer memória.

"Todo o cluster agora é o computador," Jorgensen disse. "A rede se torna uma parte interna da fera… alimentar a fera com dados está se tornando mais difícil porque a largura de banda entre as GPUs está crescendo mais rápido do que qualquer outra coisa."

É por isso que a Nvidia está adotando a inferência desagregada. Ao separar as cargas de trabalho, os aplicativos corporativos podem usar níveis de armazenamento especializados para alimentar dados com desempenho de classe de memória, enquanto os "Groq por dentro" o silício lida com a geração de tokens de alta velocidade.

O veredicto para 2026

Estamos entrando em uma era de extrema especialização. Durante décadas, os operadores históricos puderam vencer enviando uma arquitetura dominante de uso geral – e seu ponto cego era muitas vezes o que eles ignoravam nas bordas. A longa negligência da Intel em relação ao baixo consumo de energia é o exemplo clássico, disse-me Michael Stewart, sócio-gerente do fundo de risco M12 da Microsoft. A Nvidia está sinalizando que não repetirá esse erro. “Se até o líder, até mesmo o leão da selva adquirir talento, adquirir tecnologia – é um sinal de que todo o mercado está apenas querendo mais opções”, disse Stewart.

Para os líderes técnicos, a mensagem é pare de arquitetar sua pilha como se fosse um rack, um acelerador, uma resposta. Em 2026, a vantagem irá para as equipes que rotularem explicitamente as cargas de trabalho – e as encaminharem para o nível certo:

  • pesado de pré-preenchimento vs. pesado de decodificação

  • contexto longo vs. contexto curto

  • interativo vs. lote

  • modelo pequeno vs. modelo grande

  • restrições de borda versus suposições do data center

Sua arquitetura seguirá esses rótulos. Em 2026, a “estratégia de GPU” deixa de ser uma decisão de compra e passa a ser uma decisão de roteamento. Os vencedores não perguntarão qual chip compraram – eles perguntarão onde cada token foi executado e por quê.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *