O GLM-5 de código aberto da z.ai atinge uma taxa de alucinação baixa recorde e aproveita a nova técnica de ‘lodo’ RL

O GLM-5 de código aberto da z.ai atinge uma taxa de alucinação baixa recorde e aproveita a nova técnica de 'lodo' RL

A startup chinesa de IA Zhupai, também conhecida como z.ai, está de volta esta semana com um novo modelo de linguagem de grande porte de arregalar os olhos: GLM-5.

O mais recente na série GLM contínua e continuamente impressionante da z.ai, ele mantém uma licença MIT de código aberto – perfeita para implantação empresarial – e, em uma das várias conquistas notáveis, atinge uma taxa de alucinação recorde no Índice de Inteligência de Análise Artificial independente v4.0.

Com uma pontuação de -1 no Índice AA-Omniscience — representando uma enorme melhoria de 35 pontos em relação ao seu antecessor — o GLM-5 agora lidera toda a indústria de IA, incluindo concorrentes dos EUA como Google, OpenAI e Anthropic, em confiabilidade do conhecimento, sabendo quando se abster em vez de fabricar informações.

Além de sua capacidade de raciocínio, o GLM-5 foi desenvolvido para trabalhos de conhecimento de alta utilidade. Possui recursos nativos "Modo Agente" recursos que permitem transformar prompts brutos ou materiais de origem diretamente em documentos profissionais de escritório, incluindo documentos prontos para uso .docx, .pdfe .xlsx arquivos.

Seja gerando relatórios financeiros detalhados, propostas de patrocínio para escolas secundárias ou planilhas complexas, o GLM-5 fornece resultados em formatos reais que se integram diretamente aos fluxos de trabalho empresariais.

Também tem um preço disruptivo de cerca de US$ 0,80 por milhão de tokens de entrada e US$ 2,56 por milhão de tokens de saída, aproximadamente 6x mais barato do que concorrentes proprietários como Claude Opus 4.6, tornando a engenharia de agentes de última geração mais econômica do que nunca. Aqui está o que mais os tomadores de decisão empresariais devem saber sobre o modelo e seu treinamento.

Tecnologia: dimensionamento para eficiência agente

No cerne do GLM-5 está um grande salto nos parâmetros brutos. O modelo vai dos parâmetros 355B do GLM-4.5 até impressionantes parâmetros 744B, com 40B ativos por token em sua arquitetura Mixture-of-Experts (MoE). Este crescimento é apoiado por um aumento nos dados de pré-treinamento para 28,5T de tokens.

Para resolver ineficiências de treinamento dessa magnitude, a Zai desenvolveu "limo," uma nova infraestrutura de aprendizagem por reforço assíncrona (RL).

A RL tradicional muitas vezes sofre de "cauda longa" gargalos; Slime quebra esse bloqueio ao permitir que trajetórias sejam geradas de forma independente, possibilitando as iterações refinadas necessárias para um comportamento agente complexo.

Ao integrar otimizações em nível de sistema, como Active Partial Rollouts (APRIL), o slime aborda os gargalos de geração que normalmente consomem mais de 90% do tempo de treinamento de RL, acelerando significativamente o ciclo de iteração para tarefas de agente complexas.

O design da estrutura é centrado em um sistema modular tripartido: um módulo de treinamento de alto desempenho desenvolvido pela Megatron-LM, um módulo de implementação utilizando SGLang e roteadores personalizados para geração de dados de alto rendimento e um buffer de dados centralizado que gerencia a inicialização imediata e o armazenamento de implementação.

Ao permitir ambientes adaptáveis ​​verificáveis ​​e ciclos de feedback de compilação multivoltas, o slime fornece a base robusta e de alto rendimento necessária para fazer a transição da IA ​​de simples interações de chat para engenharia de sistemas rigorosa e de longo horizonte.

Para manter a implantação gerenciável, o GLM-5 integra DeepSeek Sparse Attention (DSA), preservando uma capacidade de contexto de 200K e reduzindo drasticamente os custos.

Trabalho de conhecimento de ponta a ponta

Zai está enquadrando o GLM-5 como um "escritório" ferramenta para a era AGI. Enquanto os modelos anteriores focavam em snippets, o GLM-5 foi desenvolvido para fornecer documentos prontos para uso.

Ele pode transformar prompts de forma autônoma em arquivos formatados .docx, .pdf e .xlsx – desde relatórios financeiros até propostas de patrocínio.

Na prática, isso significa que o modelo pode decompor metas de alto nível em subtarefas acionáveis ​​e executar "Engenharia Agêntica," onde os humanos definem os portões de qualidade enquanto a IA cuida da execução.

Alto desempenho

Os benchmarks do GLM-5 tornam-no o novo modelo de código aberto mais poderoso do mundo, de acordo com a Artificial Analysis, superando o novo Kimi K2.5 da rival chinesa Moonshot, lançado há apenas duas semanas, mostrando que as empresas chinesas de IA estão quase apanhadas por rivais ocidentais proprietários com muito melhores recursos.

De acordo com os próprios materiais da z.ai compartilhados hoje, o GLM-5 está próximo do estado da arte em vários benchmarks importantes:

Banco SWE verificado: O GLM-5 alcançou uma pontuação de 77,8, superando o Gemini 3 Pro (76,2) e se aproximando do Claude Opus 4,6 (80,9).

Banco de vendas 2: Em uma simulação de administração de uma empresa, o GLM-5 ficou em primeiro lugar entre os modelos de código aberto, com um saldo final de US$ 4.432,12.

Além do desempenho, o GLM-5 está prejudicando agressivamente o mercado. Disponível no OpenRouter em 11 de fevereiro de 2026, seu preço é de aproximadamente US$ 0,80 a US$ 1,00 por milhão de tokens de entrada e US$ 2,56 a US$ 3,20 por milhão de tokens de saída. Ele fica na faixa intermediária em comparação com outros LLMs líderes, mas com base em seu desempenho de benchmarking de nível superior, é o que se pode chamar de um "roubar."

Modelo

Entrada (por 1 milhão de tokens)

Saída (por 1 milhão de tokens)

Custo total (1 milhão de entrada + 1 milhão de saída)

Fonte

Qwen3 Turbo

US$ 0,05

US$ 0,20

US$ 0,25

Nuvem Alibaba

Grok 4.1 Rápido (raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

Grok 4.1 Rápido (sem raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

deepseek-chat (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

raciocinador de busca profunda (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

Pré-visualização em Flash do Gêmeos 3

US$ 0,50

US$ 3,00

US$ 3,50

Google

Kimi-k2.5

US$ 0,60

US$ 3,00

US$ 3,60

Tiro lunar

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

ERNIE 5.0

US$ 0,85

US$ 3,40

US$ 4,25

Qian Fan

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Qwen3-Max (23/01/2026)

US$ 1,20

US$ 6,00

US$ 7,20

Nuvem Alibaba

Gêmeos 3 Pro (≤200K)

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.2

US$ 1,75

US$ 14,00

US$ 15,75

OpenAI

Soneto de Claude 4.5

US$ 3,00

US$ 15,00

US$ 18,00

Antrópico

Gêmeos 3 Pro (>200K)

US$ 4,00

US$ 18,00

US$ 22,00

Google

Fechar Trabalho 4.6

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.2 Pró

US$ 21,00

US$ 168,00

US$ 189,00

OpenAI

Isso é cerca de 6x mais barato na entrada e quase 10x mais barato na produção do que Claude Opus 4.6 (US$ 5/US$ 25). Este lançamento confirma os rumores de que Zhipu AI estava por trás "Pônei Alfa," um modelo furtivo que anteriormente destruiu os benchmarks de codificação no OpenRouter.

No entanto, apesar dos elevados benchmarks e do baixo custo, nem todos os primeiros utilizadores estão entusiasmados com o modelo, notando que o seu alto desempenho não conta toda a história.

Lukas Petersson, cofundador da Andon Labs, startup autônoma de protocolo de IA com foco na segurança, comentou no X: "Depois de horas lendo os traços do GLM-5: um modelo incrivelmente eficaz, mas muito menos consciente da situação. Alcança objetivos por meio de táticas agressivas, mas não raciocina sobre sua situação nem aproveita a experiência. Isso é assustador. É assim que você obtém um maximizador de clipe de papel."

O "maximizador de clipe de papel" refere-se a uma situação hipotética descrita pelo filósofo de Oxford Nick Bostrom em 2003, na qual uma IA ou outra criação autónoma conduz acidentalmente a um cenário apocalíptico ou à extinção humana ao seguir uma instrução aparentemente benigna – como maximizar o número de clipes de papel produzidos – a um grau extremo, redireccionando todos os recursos necessários para a vida humana (ou outra vida) ou de outra forma tornando a vida impossível através do seu compromisso de cumprir o objectivo aparentemente benigno.

Sua empresa deveria adotar o GLM-5?

As empresas que buscam escapar da dependência do fornecedor considerarão a licença MIT do GLM-5 e a disponibilidade de pesos abertos uma vantagem estratégica significativa. Ao contrário dos concorrentes de código fechado que mantêm a inteligência atrás de muros proprietários, o GLM-5 permite que as organizações hospedem sua própria inteligência de nível de fronteira.

A adoção não ocorre sem atritos. A grande escala dos parâmetros do GLM-5 – 744B – requer um enorme piso de hardware que pode estar fora do alcance de empresas menores sem clusters significativos de GPU na nuvem ou no local.

Os líderes de segurança devem pesar as implicações geopolíticas de um modelo emblemático de um laboratório baseado na China, especialmente em indústrias regulamentadas onde a residência e a proveniência dos dados são rigorosamente auditadas.

Além disso, a mudança para agentes de IA mais autónomos introduz novos riscos de governação. À medida que os modelos passam de "bater papo" para "trabalhar," eles começam a operar em aplicativos e arquivos de forma autônoma. Sem as permissões robustas específicas do agente e os portões de qualidade humanos estabelecidos pelos líderes de dados corporativos, o risco de erros autônomos aumenta exponencialmente.

Em última análise, o GLM-5 é um "comprar" para organizações que superaram os simples copilotos e estão prontas para construir um escritório verdadeiramente autônomo.

É para engenheiros que precisam refatorar um back-end legado ou que necessitam de um "autocura" pipeline que não dorme.

Enquanto os laboratórios ocidentais continuam a otimizar para "Pensamento" e profundidade de raciocínio, Zai está otimizando para execução e escala.

As empresas que hoje adotam o GLM-5 não estão apenas comprando um modelo mais barato; eles estão apostando em um futuro onde a IA mais valiosa é aquela que consegue terminar o projeto sem ser solicitada duas vezes.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *